Como dividir um Dataset para treinamento e teste

como dividir os dados em treinamento e teste

Como dividir um Dataset para treinamento e teste

Autor do post:Vinicius dos Santos
Post publicado:29 de agosto de 2020
Categoria do post:Curso de Inteligência Artificial / Cursos
Comentários do post:0 Comentário

Treinamento e teste de um classificador é uma rotina muito comum para cientistas de dados, nesse artigo vamos discutir como fazer isso usando python.

Imagine que você possui uma base de dados que você quer utilizar como fonte de informação para o treinamento de um classificador. Ao realizar o treinamento, você pode usar o mesmo conjunto de dados para testá-lo, porém, o resultado será enviesado, porque os algoritmos que constroem modelos (árvores de decisão) utilizam probabilidade para calcular qual seria a melhor classificação para uma nova instância. Se as instâncias que estão sendo avaliadas já estão presentes no dataset, o algoritmo já entende qual é a classificação mais adequada para aquele caso.

Uma solução bastante conhecida para esse problema é criar um script que treina um classificador e utiliza a mesma base de dados testar seu classificador. Para isso, pacotes como o SKLearn, disponibilizam as ferramentas de divisão da base de dados de treino e teste.

Lembre-se que antes de fazer a divisão você deve “limpar” seus dados. Veja um artigo sobre isso aqui.

Exemplo de divisão de dataset em treinamento e teste

O primeiro passo é importar as bibliotecas e ferramentas necessárias:


import numpy as np

from sklearn.model_selection import train_test_split

Em seguida, podemos criar um novo conjunto de dados de exemplo:


X, y = np.arange(10).reshape((5, 2)), range(5)

Nesse exemplo, a variável X contém o array:

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

A variável y contém uma lista de 0 até 4:


[0, 1, 2, 3, 4]

Por fim, vamos dividir esse conjunto de dados em duas partes: treino e teste. Sendo assim, as variáveis de treino e de teste serão X_train e y_train | X_test e y_test.


X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33, random_state=42)

Por fim, as variáveis contém:

X_train:


array([[4, 5],
       [0, 1],
       [6, 7]])

X_test:


array([[2, 3],
       [8, 9]])

y_train:


[2, 0, 3]

y_test:


[1, 4]

Após essa divisão você poderá utilizar as variáveis X_train/y_train para treinar seu classificador. As variáveis X_test/y_test serão utilizadas para testar a acurácia, precisão e recall do seu classificador em realizar essas predições.

Tags: Aprendizado de máquina, Classificador, Pré-processamento, Python

Vinicius dos Santos

Apenas um apaixonado por Ciência da Computação e a forma com que ela pode transformar vidas!

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Exemplo de divisão de dataset em treinamento e teste

Vinicius dos Santos

Você também pode gostar

Como instalar o NLTK no python

Como remover símbolos em Java

Como criar relacionamento N-M no banco

Deixe um comentário Cancelar resposta

Informações sobre sua privacidade