Como transformar um saco de palavras em um modelo TF-IDF

Como transformar um saco de palavras em um modelo TF-IDF

Quando criamos o Bag of Words na Aula 03 dessa seção, o objetivo é transformar esse saco de palavras em um modelo TF-IDF. Para auxiliar a construção desse modelo o scikit learn já possui alguns métodos pré-cozidos que podem ajudar o cientista de dados.

Usando o python para transformar o BOW em um modelo TF-IDF


Relembrando…

temos o objeto X  no qual o corpus foi transformado.

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = CountVectorizer(max_features=2000, min_df = 3, max_df = 0.6, stop_words='english')
X = vectorizer.fit_transform(corpus).toarray()

A seguir utilizamos um novo objeto denominado TfidfTransformer para transformar o vetor obtido no passo anterior.

from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer()
X = transformer.fit_transform(X).toarray()

Vinicius dos Santos

Apenas um apaixonado por Ciência da Computação e forma com que ela pode transformar vidas!

Deixe uma resposta