Aula 03 - Criando um bag-of-words (saco de palavras)

1- Introdução


Como já vimos na Aula 08 da Seção 05 desse curso é possível criar um 'saco de palavras'. Porém, esse algoritmo é muito conhecido e já foi amplamente discutido e implementado por outros desenvolvedores. Sendo assim, utilizaremos nessa seção uma ferramenta do scikit learn para criar um saco de palavras. 

2- Utilizando o TfidfVectorizer


Primeiro importamos a biblioteca:

from sklearn.feature_extraction.text import TfidfVectorizer

Em seguida podemos chamar o método passando alguns parâmetros:

vectorizer = CountVectorizer(max_features=2000, min_df = 3, max_df = 0.6, stop_words='english')
X = vectorizer.fit_transform(corpus).toarray()

max_features = considera apenas as 2000 palavras com maior frequência do modelo.
min_df = Ao construir o vocabulário, ignora os termos que têm uma frequência de documento estritamente inferior ao limite determinado. Esse valor também é chamado de corte na literatura. Se float, o parâmetro representa uma proporção de documentos, contagens absolutas inteiras.
max_df = Ao construir o vocabulário, ignore os termos que têm uma frequência de documento estritamente superior ao limite dado (palavras de parada específicas do corpo). Se float, o parâmetro representa uma proporção de documentos, contagens absolutas inteiras. Este parâmetro é ignorado se o vocabulário não for nenhum.





Aula 03 - Criando um bag-of-words (saco de palavras) Aula 03 - Criando um bag-of-words (saco de palavras) Reviewed by Vinicius dos Santos on 04:41:00 Rating: 5

Nenhum comentário

Escreve ai sua opinião!