[MD#3] - Mineração de dados - Dados - #1
Introdução
Neste artigo abordaremos como os
dados são tratados na mineração de dados. Apesar de tratar-se de dados
representados por números e estados, os dados aqui precisam ser cuidadosamente
analisados. Assim é necessário que se conheça como eles são classificados.
Grande parte do tratamento
envolvendo a mineração de dados utiliza de técnicas estatísticas para resolução
de problemas. Portanto, neste artigo serão abordados alguns assuntos que também
são foco na área estatística.
1 – Recordando...
· Dados:
coleção de objetos e seus atributos;
- · Atributo: propriedade do objeto, também conhecido como variável, campo ou característica. Por exemplo: cor do olho, temperatura, etc.
- · Objeto: conjunto de atributos também conhecido como registro, ponto, amostra, entidade ou instância.
Os possíveis valores para os
atributos são números ou símbolos. Porém, existe uma distinção entre o atributo
e o valor dos atributos. Um atributo pode ser mensurado em diferentes valores,
por exemplo: a altura pode ser mensurada em metros ou pés. Além disso,
diferentes atributos podem ser mapeados para um mesmo conjunto de valores, por
exemplo: Valores de atributos para ID e idade são inteiros. Porém, as
propriedades dos valores dos atributos podem ser diferentes.
2 – Tipos de atributos
Existem diferentes tipos de
atributos possíveis, observe a tabela 1:
Tipo
|
Exemplo
|
Nominal
|
Ids, cor dos olhos, CEP
|
Ordinal
|
Rankings (escala de 1 – 10), notas, altura (alto,
mediano, baixo)
|
Intervalar
|
Datas, temperaturas, celsius ou Fahrenheit
|
Proporcional
|
Exemplos: comprimento, tempo, contadores
|
O tipo de atributo está
intimamente ligado as propriedades o mesmo possui. Considere as propriedades:
·
Distinção: = ≠
·
Ordenação: <
>
·
Adição: + -
·
Multiplicação: * /
Os atributos possuem as seguintes
propriedades:
·
Nominal: distinção
·
Ordinal: distinção e ordenação
·
Intervalar: Distinção, ordenação e adição
·
Proporcional: as 4 propriedades
Podemos dizer que faz sentido
comparar e ordenar objetos pelo comprimento, assim como falar nas diferenças e
proporções de comprimento.
Para cada tipo de atributo
existem operações que podem ser executadas, acompanhe na Tabela 2:
Tipo do atributo
|
Descrição
|
Exemplos
|
Operações
|
Nominal
|
Os valores de um atributo nominal são nomes diferentes. Atributos
nominais possuem informação suficiente somente para distinguir um dos outros
|
CEP, Id do empregado, cor dos olhos, sexo
|
Moda, entropia, contingência, correlação, x² teste
|
Ordinal
|
Os valores de um atributo ordinal possuem informação suficiente para
construir uma ordem
|
Dureza dos minerais, Rankings, notas, números de ruas.
|
Mediana, percentis, correlação de ranking.
|
Intervalo
|
Para atributos intervalares, as diferenças entre os valores são
significantes, existe uma unidade de mensuração
|
Datas, temperatura em Celcius ou Fahrenheit
|
Media, desvio padrão, Correlação de Pearson, Testes t e F
|
Relativos
|
Para variáveis relativas, ambas as diferenças e relações são
importantes (*,/)
|
Quantidades monetárias, contagens, idade, massa, tamanho, corrente
elétrica
|
Média geométrica, média harmônica, variação de percentual.
|
2.1 – Atributos discretos e contínuos
Os atributos discretos são
aqueles que possuem um conjunto de valores finitos. Por exemplo: CEP,
contadores. Representado por variáveis inteiras, exceto os atributos binários
que são um caso especial de atributos discretos. Já os atributos contínuos são
valores do tipo real, por exemplo: temperatura, peso, altura. Representados
como variáveis de ponto-flutuante, geralmente.
3- Características gerais dos dados
- Dimensionalidade: número de atributos que os objetos possuem
- Dispersão: atributos de objetos que possuem valores iguais ou não
Resolução: escala onde os dados
foram coletados - por exemplo - variações de pressão atmosférica em escala de
horas refletem o movimento de tempestades, em escala de meses não são detectáveis.
4 – Formas de representação de
dados
Os dados podem ser encontrados em
bases de dados, pilhas de papeis escritos a mão, sensores, entre outros. Assim
com um cenário tão diversificado temos ainda formas diferentes de expressar os
dados, cabe o analista identificar qual a melhor forma de representação. A
seguir apresentaremos algumas formas de representação.
4.1 – Dados em registro
Consiste em uma coleção de
registros, cada qual consistindo em um conjunto fixo de atributos. É o que no
dia a dia chamamos de tabela no banco de dados.
4.2 – Matriz de dados
Variação de dados em registros pode ser representada através
de matrizes, onde suas operações podem ser aplicadas para manipulação dos
dados. Todos os objetos contêm o mesmo conjunto fixo de atributos numéricos,
onde as linhas são objetos e colunas são atributos.
Projeção de carga x
|
Projeção de carga y
|
Distância
|
Carga
|
Espessura
|
10.23
|
5.27
|
15.22
|
2.7
|
1.2
|
12.65
|
6.25
|
16.22
|
2.2
|
1.1
|
4.3 – Matriz de
termos e documentos
Cada documento torna-se um vetor de termos, onde cada termo
é um componente do vetor (atributo). O valor de cada componente é o número de
vezes que o termo correspondente ocorreu no documento.
Team
|
Coach
|
Play
|
Ball
|
Score
|
Game
|
Win
|
Lost
|
Timeout
|
Season
|
|
Doc 1
|
3
|
0
|
5
|
0
|
2
|
6
|
0
|
2
|
0
|
2
|
Doc 2
|
0
|
7
|
0
|
2
|
1
|
0
|
0
|
3
|
0
|
0
|
Doc 3
|
0
|
1
|
0
|
0
|
1
|
2
|
2
|
0
|
3
|
0
|
4.4 – Transação ou
dados de cesta de mercado
Este é um tipo de dados especial de dados em registro, onde
cada registro (transação) envolve um conjunto de itens. Por exemplo, considere
uma mercearia onde o conjunto de produtos comprados por um cliente durante a
ida à mercearia constitui uma transação, enquanto que os produtos individuais
que foram comprados são os itens.
TID
|
Itens
|
1
|
Pão, Coca-Cola, Leite
|
2
|
Cerveja, Pão
|
3
|
Cerveja, Coca-Cola, Fraldas, Leite
|
4
|
Cerveja, Pão, Fraldas, Leite
|
5
|
Coca-Cola, Fraldas, Leite
|
4.5 – Baseada em
grafos
Se os objetos contiverem sub objetos que contenham
relacionamentos, então tais objetos são frequentemente representados como
grafos. Assim como páginas HTML onde diferentes outras páginas são ligadas.
(Figura 1)
Figura 1: Exemplo de Grafo |
4.6 – Dados ordenados
Para alguns tipos de dados, os
atributos têm relacionamentos que envolvem ordenação no tempo e espaço. (Figura 2)
Figura 2 |
Cada registro poderia ser um
histórico de compras de um cliente, por exemplo, com uma listagem de itens
comprados em diferentes ocasiões. Utilizando esta informação é possível
descobrir padrões.
Uma outra forma de representação de
dados ordenados é a sequência genômica. Elas não possuem marcação de tempo, mas
sim posições em uma sequência ordenada. (Figura 3)
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGC
GGGGGAGGCGGGGCCGCCCGAG
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGAC
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
continua...
Post a Comment