[MD#2] - Mineração de dados - Tarefas


Introdução

Este artigo é o segundo artigo da série sobre mineração de dados apresentado por este site. Iremos debater hoje quais são as principais tarefas da mineração de dados, o que são regras de associação, classificação, agrupamento, etc. Serão citados alguns exemplos de como estas tarefas são utilizadas na prática e como a mineração de dados podem realizar tarefas humanamente impossíveis.




     1-      Descritiva ou preditiva?

Primeiramente vamos recordar em poucas palavras o que são tarefas preditivas e descritivas:

  • Preditivas: busca predizer o valor de um determinado atributo baseado nos valores de outros atributos
  • Descritivas: busca derivar padrões, como: correlações, tendências, anomalias, agrupamentos dentro de uma grande massa de dados.


Podemos classificar as tarefas de mineração da seguinte forma:
  • ·         Regras de Associação (Descritiva)
  • ·         Análise de Sequências (Descritiva)
  • ·         Classificação (Preditiva)
  • ·         Agrupamento (Descritiva)
  • ·         Regressão (Preditiva)
  • ·         Outliers (Preditiva)


     2 -      Classificação

A classificação é uma das tarefas possíveis de se realizar utilizando mineração de dados. Dada uma coleção de registros (training set) cada registro contém um conjunto de atributos, sendo um dos atributos a classe.

O objetivo é que os registros que não são conhecidos devem ser atribuídos a uma classe. Um conjunto de teste é utilizado para determinar a acurácia do modelo. De maneira geral o conjunto é dividido em teste e treinamento. O conjunto de treinamento é utilizado para construir o modelo e o de teste para validar. Em outras palavras, utilizamos vários exemplos para treinar o algoritmo e a partir disso ele classifica os registros. Figura 1




Figura 1: uso da técnica de classificação


Exemplo de aplicação #1

Imagine que uma loja deseja realizar uma campanha publicitária em veículos de mídias diferentes. Sabemos que cada mídia atinge um tipo de público, assim uma propaganda na internet não atinge o mesmo grupo de uma propaganda em jornais impressos.

Para realizar uma campanha de marketing mais efetiva a loja decidiu utilizar sua base de dados para identificar o perfil dos clientes que compraram um produto similar. Para isso os analistas coletaram destes usuários informações, como: estado civil, idade, média de compras.

Com estas informações como atributos de entrada, foi possível gerar o modelo de aprendizado do classificador.

Exemplo de aplicação #2

As pesquisas espaciais também se beneficiam da mineração de dados para a classificação de estrelas ou galáxias. O objetivo é predizer uma classe (estrela ou galáxia) de objetos no céu, especialmente os visualmente fracos. Baseado na varredura por imagem de um telescópio.

Para executar esta tarefa foram segmentadas as imagens e mensurados os atributos das imagens. De acordo com estes atributos foram modeladas as classes (Figura 2). Ao final da pesquisa ela foi bem-sucedida, foram encontradas 16 novas quasares, sendo que elas são objetos longínquos de difícil detecção.
Figura 2: Classificação de galáxias e estrelas



     3 -      Agrupamento

O agrupamento é uma técnica que busca encontrar em um dado conjunto de pontos, cada um com um conjunto de atributos, e uma dada medida de similaridade (dissimilaridade) entre os mesmos, encontrar agrupamentos (clusters), tais que:
  • ·         Os pontos internos do cluster são mais similares entre si;
  • ·         Os pontos de clusters diferentes são menos similares entre si;

Existem diversas técnicas para aferir a dissimilaridade entre dois pontos, por exemplo: distância euclidiana, cosseno (para texto), etc.

Exemplo de aplicação #1

O trabalho da polícia em muitas cidades é inibir o crime, no entanto é conhecido que algumas áreas das cidades são mais violentas que outras. Áreas de favela, dominadas pelo tráfico de drogas, entre outras casas. A polícia deseja realizar um mapeamento onde, a partir dos boletins de ocorrência ela deseja encontrar quais os tipos de crimes mais frequentes e classifica-los por similaridade.

Para realização deste projeto pode-se utilizar uma técnica de clustering, onde é utilizado o texto do boletim de ocorrência e calcula-se sua similaridade. A partir da similaridade pode-se calcular a frequência de tais documentos e classifica-los extraindo os locais e realizando um mapeamento mais efetivo.

4 – Regras de associação

O objetivo desta tarefa é capturar da base de dados dependências que irão predizer a ocorrência de um item com base na ocorrência de outros itens. Por exemplo, ao estudar o comportamento do comprador é possível perceber quais produtos geralmente são comprados em conjunto.

Exemplo de aplicação #1

Um supermercado sempre dispõe seus produtos de forma lógica, onde a necessidade do cliente seja satisfeita e ele sempre leve mais produtos.

É real que muitos pais precisam dar uma passadinha nos supermercados diariamente, seja para comprar pães ou itens de higiene para seus filhos (fraldas). Então, percebendo este comportamento é comum colocar tais produtos próximos uns dos outros. Além destes existe a cerveja, como ótimo candidato a entrar no “combo”.

5 – Regressão

A regressão é uma tarefa que busca predizer um valor de uma variável contínua baseada em outras variáveis, assumindo um modelo de dependência linear ou não linear. Em geral são utilizadas abordagens estatísticas ou redes neurais.

Alguns exemplos deste tipo de tarefa é predizer o valor de venda de um produto baseada em seu valor de venda. Ainda como exemplo de predição estão a previsão da velocidade do vento como uma função da temperatura, humidade, pressão atmosférica, etc.

6 – Detecção de anomalias

O objetivo desta tarefa é detectar desvios de comportamento significativo quando comparados com as normais. Estas técnicas são utilizadas por instituições financeiras para detectar fraudes ou ainda por administradores de redes para localizar possíveis intrusões.

Neste artigo, fizemos um breve resumo das tarefas desempenhadas pela mineração de dados. Porém, existem muitos desafios dentro deste campo, sendo a escalabilidade um dos mais óbvios. Quando utilizamos a mineração de dados, de uma forma geral podemos afirmar que o volume de dados é grande. Assim, o custo computacional para processamento torna-se muito importante.


Além da escalabilidade podemos citar outros desafios, como: dimensionalidade, dados complexos, privacidade e dados com fluxo contínuo. Todos eles são estudados por esta área visando mitigar estes problemas. 



Quer fazer download deste artigo?


[MD#2] - Mineração de dados - Tarefas [MD#2] - Mineração de dados  - Tarefas Reviewed by Vinicius dos Santos on 04:22:00 Rating: 5

Nenhum comentário

Escreve ai sua opinião!