Aula 01 - obtendo os dados

1- Introdução


Nessa seção construiremos um código capaz de distinguir se uma frase possui um comentário positivo ou negativo. Esta análise também é chamada de análise de sentimentos e é amplamente utilizada por empresas que querem minerar informações sobre sua empresa em comentários, tweets ou textos na web.

Porém, neste código iremos focar em criar um classificador capaz de realizar a separação das sentenças. A criação do classificador será realizada utilizando a abordagem supervisionada, ou seja, utilizaremos exemplos de frases positivas e negativas que foram manualmente classificadas para analisar os novos exemplos. 

2- Base de dados usada


A base de dados utilizada para construção do exemplo está em inglês e possui várias sentenças que estão divididas em duas pastas: "pos" e "neg". 

Clique aqui para acessar os arquivos texto.


3- Carregando os dados usando o Python

O primeiro passo para importar o dataset é utilizar uma função do scikit learn denominada load_files:

from sklearn.datasets import load_files

Considerando que a pasta txt_sentoken está no mesmo local onde o arquivo python está sendo escrito, usamos o código:

# importing the dataset

reviews = load_files('txt_sentoken/')
X,y = reviews.data,reviews.target


O carregamento dos dados para a memória (dependendo do dataset) pode levar algum tempo. Muitas vezes é uma boa ideia salvar um arquivo do tipo pickle que realizará a importação dos dados posteriormente mais otimizada:

# storing as pickle files
with open('X.pickle', 'wb') as f:
    pickle.dump(X,f)
with open('y.pickle', 'wb') as f:
    pickle.dump(y,f)


Para ler arquivos Pickle:

# unpickling dataset
with open('X.pickle', 'rb') as f:
    X = pickle.load(f)
with open('y.pickle', 'rb') as f:
    y = pickle.load(f)




Aula 01 - obtendo os dados Aula 01 - obtendo os dados Reviewed by Vinicius dos Santos on 07:51:00 Rating: 5

Nenhum comentário

Escreve ai sua opinião!