Aula 05 - Criando e treinando o dataset



Após a construção do modelo TF-IDF é preciso realizar o procedimento de divisão em dois datasets. O dataset pode ser dividido em 80% - 20%, onde 80% dos elementos das amostras serão utilizadas para treinamento do classificador e 20% são utilizados para teste. 

Essa divisão em Python ficaria da seguinte forma:

# separando em 2 set (teste e treinamento)
from sklearn.model_selection import train_test_split
text_train, text_test, sent_train, sent_test = train_test_split(X,y,test_size=0.2,random_state=0)

As variáveis text_train, sent_train são utilizadas para treinamento e as variáveis text_test, sent_test são utilizadas para os testes.


Para realizar o treinamento de um classificador de regressão logística devemos importa-lo ao código e passar como parâmetro os datasets de treinamento.

# criando um classificador de regressão logistica
from sklearn.linear_model import LogisticRegression

classifier = LogisticRegression()
classifier.fit(text_train,sent_train)

Como resultado obtemos a seguinte mensagem:

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)


A partir deste ponto temos um classificador treinado e pronto para predizer classificações das novas amostras.














Aula 05 - Criando e treinando o dataset Aula 05 - Criando e treinando o dataset Reviewed by Vinicius dos Santos on 03:53:00 Rating: 5

Nenhum comentário

Escreve ai sua opinião!