[MD#4] - Mineração de dados - Dados - #2

Introdução

Nesta segunda parte, iremos continuar a delinear como são representados os dados para mineração de dados e tratar da qualidade dos mesmos. É fato que em toda base de dados existem problemas, valores faltantes, dados inconsistentes. Portanto, cabe ao analista tratar estes problemas para que sua análise seja mais realista.

Ainda neste artigo estudaremos algumas formas eficientes de representação que são bastante utilizadas na área. Conhecer estas formas de visualização permitirá que a escolha das técnicas utilizadas seja mais eficiente.




1 – Qualidade dos dados

Em qualquer base de dados real existem problemas que devem ser considerados e mitigados. O analista ao lidar com uma nova base de dados, deve detectar quais problemas ela possui e adotar as medidas cabíveis para que eles não afetem o seu resultado final. Alguns dos problemas mais comuns são: outliers, valores faltantes, dados duplicados.

1.1 – Outliers

Outliers são objetos da base de dados que apresentam características diferentes da maioria dos outros objetos. Pode se caracterizar por valores incomuns de um dado atributo. (Figura 1)

Figura 1 - Outliers

1.2 - Valores faltantes

Os valores faltantes são atributos não preenchidos em um objeto/registro na base de dados. Algumas razões para sua ocorrência são: informações não coletadas (ex. peso, idade); atributos não aplicáveis a todos (ex. salário anual não é aplicável a crianças).

Existem algumas técnicas para tratamento dos valores faltantes, porém a sua seleção e utilização deve ser feita com muita cautela. A aplicação de uma técnica de tratamento de forma errada, pode excluir ou ignorar dados importantes para o resultado final.

1.3 - Dados duplicados

Quando existe uma fusão de bases de dados heterogêneas é comum que exista o problema da duplicação. Estes dados são objetos que são idênticos ou quase idênticos, sendo este problema derivado a presença dos dados em bancos de dados diferenças com ligeiras mudanças que os diferenciam.

Para tratamento deste problema é recomendado o processo de desduplicação. Este processo tem como objetivo localizar os dados possivelmente duplicados e remove-los.

2     – Estatísticas de sumarização

Estatísticas de sumarização são valores que sumarizam as propriedades dos dados. As propriedades sumarizadas incluem frequência, localização e espalhamento. Por exemplo: localização – média, espalhamento – desvio padrão. A maioria das estatísticas de sumarização podem ser calculadas com uma única varredura nos dados.

2.1 – Frequência e Moda

A frequência do valor de um atributo é a porcentagem de ocorrências que um dado valor ocorre no conjunto de dados. Por exemplo, dado um atributo “sexo” é possível afirmar que o sexo feminino ocorre aproximadamente 50% das vezes.
A moda de um atributo é o valor mais frequente, estas medidas de frequência e moda são tipicamente utilizadas em dados categóricos.

2.2 - Percentís

Para dados contínuos o conceito de percentil é bastante útil. Dado um atributo x ordinal ou contínuo e um número p entre 0 e 100, o p-ésimo percentil é o valor de w de x tal que p% dos valores observados de x são menores do que w.  Por exemplo: 50º percentil é o valor que 50% dos valores de x são menores que o mesmo.

2.3 – Medidas de Localização: Média e Mediana

A média é a medida de localização mais utilizada para um conjunto de pontos, entretanto é extremante sensíveis a outliers. Assim, a mediana também pode ser aplicada como um mecanismo mais adequado para representação.

Observe o exemplo, considere o vetor:

8
10
14
19
23
25
30
38
47
107

Utilizando a média, a lógica aplicada é realizar soma de todos os valores e a seguir dividir pela quantidade de valores. Logo:
Média = (8 + 10 + 14 + 19 + 23 + 25 + 30 + 38 + 47 + 107) / 10 = 32,1
Mediana = (23 + 25) / 2 = 24
Perceba que o valor 107 no vetor pode ser considerado um outlier.

2.4 – Medidas de dispersão: Intervalo de variância

Intervalo é basicamente a diferença entre o valor máximo e mínimo. A variância ou o desvio padrão são medidas geralmente utilizadas para caracterizar a dispersão de um conjunto de pontos. Porém esta medida tem uma certa sensibilidade a outliers.
3     – Visualização dos dados

A visualização de dados é a conversão dos dados em um formato visual ou tabular. Desta forma, as características dos dados e seus relacionamentos podem ser analisados e reportados com maior eficiência. A aplicação das visualizações corretas possibilita a detecção de padrões e tendências, ou ainda a detecção de outliers ou padrões não usuais.

Assim uma representação é um mapeamento de uma informação em um formato visual. Os dados, assim como seus atributos, são transformados em elementos gráficos tais como pontos, linhas, formas e cores. Por exemplo: Objetos são representados como pontos seus atributos são representados como posições dos pontos no espaço ou características de tais pontos como cor, tamanho e forma caso a posição seja utilizada o relacionamento entre os pontos pode ser percebido facilmente, i.e., se forma grupos ou um ponto é um outlier.

3.1 – Disposição
A disposição dos dados em uma visualização é a forma com que eles foram organizados. Pode gerar uma ampla diferença na facilidade do entendimento dos dados. (Figura 2)

Figura 2 - Disposição dos dados
3.2 – Seleção

É bastante comum na busca de uma visualização eficiente a seleção de atributos. Assim, podemos definir esta seleção como a eliminação ou depreciação de certos objetos ou atributos.

A redução da dimensionalidade é geralmente utilizada para reduzir o número de dimensões (atributos).

4     – Técnicas de visualização

Agora o objetivo é explorar as principais técnicas de visualização de dados.

4.1 – Histogramas

Histograma
·         Geralmente a distribuição de valores de uma dada variável;
·         Divide os valores em bins;
·         A altura de cada bin indica a quantidade de objetos;
·         A forma do histograma depende do número de bens;



Figura 3 - Histogramas

4.2 – Histogramas bidimensionais

Ilustram a distribuição conjunta dos dois valores de dois atributos



Figura 4 - Histograma bidimensional

4.3 – Box Plots

Inventado por J. Tukey  o box plot é uma outra forma de disposição da distribuição dos dados. É bastante interessante por apresentar a visão dos percentis, valor da mediana e outliers em uma só visualização.

 
Figura 5 – box  plot

Além disso os box plots podem ser utilizados para comparar atributos

 
Figura 6 - box splot

4.4 – Scatter plots

São representações onde a posição é determinada pelo valor dos atributos. Os scatter plots bidimensionais são os mais comuns, porém podem existir tridimensionais. Acompanhe o Scatter plot do banco de dados IRIS da UCI:

 
Figura 7 - Scatter plots

4.5 – Matrix plots

É um tipo de visualização quando os objetos são ordenados de acordo com a classe. Na geração desta visualização os atributos são normalizados para que um domine o outro no plot. Estas visualizações de similaridade e dissimilaridade são úteis para visualizar o relacionamento entre objetos.

 
Figura 8 - Matrix plots

4.6 – Coordenadas paralelas

Esta visualização é utilizada para plotar os valores dos atributos de dados de alta dimensionalidade. Ao invés de utilizar eixos perpendiculares, utiliza-se um conjunto de eixos paralelos, onde os valores dos atributos de cada objeto são plotados como pontos em cada eixo correspondente e conectados por uma linha. Cada objeto é representado por uma linha, já as linhas representam classes distintas de objetos. A ordem dos atributos é importante para a visualização de grupos.

 
Figura 9 - Coordenadas paralelas


Continua...


Quer fazer download deste artigo?




[MD#4] - Mineração de dados - Dados - #2 [MD#4] - Mineração de dados - Dados - #2 Reviewed by Vinicius dos Santos on 12:22:00 Rating: 5

Nenhum comentário

Escreve ai sua opinião!