[MD#3] - Mineração de dados - Dados - #1

Introdução


Neste artigo abordaremos como os dados são tratados na mineração de dados. Apesar de tratar-se de dados representados por números e estados, os dados aqui precisam ser cuidadosamente analisados. Assim é necessário que se conheça como eles são classificados.

Grande parte do tratamento envolvendo a mineração de dados utiliza de técnicas estatísticas para resolução de problemas. Portanto, neste artigo serão abordados alguns assuntos que também são foco na área estatística.




1 – Recordando...

·    Dados: coleção de objetos e seus atributos;
  • ·  Atributo: propriedade do objeto, também conhecido como variável, campo ou característica. Por exemplo: cor do olho, temperatura, etc.
  • ·  Objeto: conjunto de atributos também conhecido como registro, ponto, amostra, entidade ou instância.

Os possíveis valores para os atributos são números ou símbolos. Porém, existe uma distinção entre o atributo e o valor dos atributos. Um atributo pode ser mensurado em diferentes valores, por exemplo: a altura pode ser mensurada em metros ou pés. Além disso, diferentes atributos podem ser mapeados para um mesmo conjunto de valores, por exemplo: Valores de atributos para ID e idade são inteiros. Porém, as propriedades dos valores dos atributos podem ser diferentes.

2 – Tipos de atributos

Existem diferentes tipos de atributos possíveis, observe a tabela 1:

Tipo
Exemplo
Nominal
Ids, cor dos olhos, CEP
Ordinal
Rankings (escala de 1 – 10), notas, altura (alto, mediano, baixo)
Intervalar
Datas, temperaturas, celsius ou Fahrenheit
Proporcional
Exemplos: comprimento, tempo, contadores

O tipo de atributo está intimamente ligado as propriedades o mesmo possui. Considere as propriedades:

·         Distinção: = ≠
·         Ordenação: <  >
·         Adição: + -
·         Multiplicação: * /

Os atributos possuem as seguintes propriedades:

·         Nominal: distinção
·         Ordinal: distinção e ordenação
·         Intervalar: Distinção, ordenação e adição
·         Proporcional: as 4 propriedades

Podemos dizer que faz sentido comparar e ordenar objetos pelo comprimento, assim como falar nas diferenças e proporções de comprimento.

Para cada tipo de atributo existem operações que podem ser executadas, acompanhe na Tabela 2:

Tipo do atributo
Descrição
Exemplos
Operações
Nominal
Os valores de um atributo nominal são nomes diferentes. Atributos nominais possuem informação suficiente somente para distinguir um dos outros
CEP, Id do empregado, cor dos olhos, sexo
Moda, entropia, contingência, correlação, x² teste
Ordinal
Os valores de um atributo ordinal possuem informação suficiente para construir uma ordem
Dureza dos minerais, Rankings, notas, números de ruas.
Mediana, percentis, correlação de ranking.
Intervalo
Para atributos intervalares, as diferenças entre os valores são significantes, existe uma unidade de mensuração
Datas, temperatura em Celcius ou Fahrenheit
Media, desvio padrão, Correlação de Pearson, Testes t e F
Relativos
Para variáveis relativas, ambas as diferenças e relações são importantes (*,/)
Quantidades monetárias, contagens, idade, massa, tamanho, corrente elétrica
Média geométrica, média harmônica, variação de percentual.

2.1 – Atributos discretos e contínuos

Os atributos discretos são aqueles que possuem um conjunto de valores finitos. Por exemplo: CEP, contadores. Representado por variáveis inteiras, exceto os atributos binários que são um caso especial de atributos discretos. Já os atributos contínuos são valores do tipo real, por exemplo: temperatura, peso, altura. Representados como variáveis de ponto-flutuante, geralmente.

3- Características gerais dos dados

  • Dimensionalidade: número de atributos que os objetos possuem
  • Dispersão: atributos de objetos que possuem valores iguais ou não


Resolução: escala onde os dados foram coletados - por exemplo - variações de pressão atmosférica em escala de horas refletem o movimento de tempestades, em escala de meses não são detectáveis.

4 – Formas de representação de dados

Os dados podem ser encontrados em bases de dados, pilhas de papeis escritos a mão, sensores, entre outros. Assim com um cenário tão diversificado temos ainda formas diferentes de expressar os dados, cabe o analista identificar qual a melhor forma de representação. A seguir apresentaremos algumas formas de representação.

4.1 – Dados em registro

Consiste em uma coleção de registros, cada qual consistindo em um conjunto fixo de atributos. É o que no dia a dia chamamos de tabela no banco de dados.



4.2 – Matriz de dados

Variação de dados em registros pode ser representada através de matrizes, onde suas operações podem ser aplicadas para manipulação dos dados. Todos os objetos contêm o mesmo conjunto fixo de atributos numéricos, onde as linhas são objetos e colunas são atributos.

Projeção de carga x
Projeção de carga y
Distância
Carga
Espessura
10.23
5.27
15.22
2.7
1.2
12.65
6.25
16.22
2.2
1.1

4.3 – Matriz de termos e documentos

Cada documento torna-se um vetor de termos, onde cada termo é um componente do vetor (atributo). O valor de cada componente é o número de vezes que o termo correspondente ocorreu no documento.


Team
Coach
Play
Ball
Score
Game
Win
Lost
Timeout
Season
Doc 1
3
0
5
0
2
6
0
2
0
2
Doc 2
0
7
0
2
1
0
0
3
0
0
Doc 3
0
1
0
0
1
2
2
0
3
0

4.4 – Transação ou dados de cesta de mercado

Este é um tipo de dados especial de dados em registro, onde cada registro (transação) envolve um conjunto de itens. Por exemplo, considere uma mercearia onde o conjunto de produtos comprados por um cliente durante a ida à mercearia constitui uma transação, enquanto que os produtos individuais que foram comprados são os itens.

TID
Itens
1
Pão, Coca-Cola, Leite
2
Cerveja, Pão
3
Cerveja, Coca-Cola, Fraldas, Leite
4
Cerveja, Pão, Fraldas, Leite
5
Coca-Cola, Fraldas, Leite

4.5 – Baseada em grafos

Se os objetos contiverem sub objetos que contenham relacionamentos, então tais objetos são frequentemente representados como grafos. Assim como páginas HTML onde diferentes outras páginas são ligadas. (Figura 1)

Figura 1: Exemplo de Grafo

4.6 – Dados ordenados
Para alguns tipos de dados, os atributos têm relacionamentos que envolvem ordenação no tempo e espaço.  (Figura 2)
Figura 2

Cada registro poderia ser um histórico de compras de um cliente, por exemplo, com uma listagem de itens comprados em diferentes ocasiões. Utilizando esta informação é possível descobrir padrões.

Uma outra forma de representação de dados ordenados é a sequência genômica. Elas não possuem marcação de tempo, mas sim posições em uma sequência ordenada. (Figura 3)

GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGC
GGGGGAGGCGGGGCCGCCCGAG
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGAC
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG


Faça download deste artigo



continua...


[MD#3] - Mineração de dados - Dados - #1 [MD#3] - Mineração de dados - Dados - #1 Reviewed by Vinicius dos Santos on 11:23:00 Rating: 5

Nenhum comentário

Escreve ai sua opinião!