Aula 04 - Transformando o BOW em um modelo TF-IDF
1- Introdução
Quando criamos o Bag of Words na Aula 03 dessa seção, o objetivo é transformar esse saco de palavras em um modelo TF-IDF. Para auxiliar a construção desse modelo o scikit learn já possui alguns métodos pré-cozidos que podem ajudar o cientista de dados.
2- Usando o python para transformar o BOW em um modelo TF-IDF
Relembrando...
temos o objeto X no qual o corpus foi transformado.
from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = CountVectorizer(max_features=2000, min_df = 3, max_df = 0.6, stop_words='english') X = vectorizer.fit_transform(corpus).toarray()
A seguir utilizamos um novo objeto denominado TfidfTransformer para transformar o vetor obtido no passo anterior.
from sklearn.feature_extraction.text import TfidfTransformer transformer = TfidfTransformer() X = transformer.fit_transform(X).toarray()
Post a Comment