Aula 05 - Criando e treinando o dataset
Após a construção do modelo TF-IDF é preciso realizar o procedimento de divisão em dois datasets. O dataset pode ser dividido em 80% - 20%, onde 80% dos elementos das amostras serão utilizadas para treinamento do classificador e 20% são utilizados para teste.
Essa divisão em Python ficaria da seguinte forma:
# separando em 2 set (teste e treinamento) from sklearn.model_selection import train_test_split text_train, text_test, sent_train, sent_test = train_test_split(X,y,test_size=0.2,random_state=0)
As variáveis text_train, sent_train são utilizadas para treinamento e as variáveis text_test, sent_test são utilizadas para os testes.
Para realizar o treinamento de um classificador de regressão logística devemos importa-lo ao código e passar como parâmetro os datasets de treinamento.
# criando um classificador de regressão logistica from sklearn.linear_model import LogisticRegression classifier = LogisticRegression() classifier.fit(text_train,sent_train)
Como resultado obtemos a seguinte mensagem:
LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
verbose=0, warm_start=False)
A partir deste ponto temos um classificador treinado e pronto para predizer classificações das novas amostras.
Post a Comment