[MD#1] - Mineração de dados - Introdução

Introdução



Estamos iniciando uma série de artigos sobre mineração de dados, o objetivo deles é introduzir este assunto de forma simples e interessante a todos que se interessam. O presente artigo apresenta a motivação do surgimento da mineração de dados e alguns conceitos importantes para este contexto.



1-    Contexto e motivação

Atualmente, grande parte das empresas utilizam sistemas informatizados para registrar sua movimentação diária e realizar o serviço administrativo. Considerando um cenário mais específico, existem ainda empresas em que o seu modelo de negócio é baseado em sistemas de informação, por exemplo: Google, Microsoft, Netflix.

A internet possibilita que uma quantidade enorme de dados trafegue em segundos. Observe a Figura 1, retirada do site http://visual.ly/internet-real-time. Ela mostra um balanço da quantidade de dados foram trafegados enquanto você acessava este site.



Chega a ser difícil acreditar que tais números sejam reais. Porém as mídias sociais utilizadas no mundo inteiro geram uma imensa quantidade de dados.

Agora vamos imaginar algo em escala menor, um simples supermercado que utiliza um sistema próprio. Os dados coletados por este estabelecimento, mesmo que não sejam uma massa gigantescas, ainda assim possuem informações importantes que podem ser extraídas.

Frequentemente nas organizações ou ainda qualquer setor que utiliza a captura e armazenamento de dados, existem informações “escondidas”. Estas informações não estão evidentes na base de dados e não podem ser extraídas utilizando linguagem de consultas tradicionais.

Considerando o volume de dados, analistas de dados humanos seriam incapazes de processar em tempo hábil os dados presentes nas bases. Visto que elas podem ser muito grandes. Sendo assim, se não houvessem técnicas de mineração de dados, uma base de dados seria um “cemitério” onde os dados são extraídos e nunca mais são úteis.

1.1 – O que é possível fazer com mineração de dados?
A  mineração pode auxiliar analistas a entender e prever necessidades dos clientes, descobrir fraudes ou descobrir perfis de comportamento dos clientes. Por exemplo:
Empresas de cartão de crédito frequentemente mapeiam o comportamento dos clientes para entender se compras fora do perfil do cliente foi efetuada. Assim, é bastante possível que tais compras tenham sido feitas por golpistas que clonam cartões.

Os cientistas se beneficiam da mineração de dados para formulação de hipóteses, encontrar padrões em bases de dados, classificar e segmentar dados. A mineração de dados então não é uma simples busca SQL em uma base de dados, ou então a busca de um nome em uma lista telefônica. A mineração de dados sempre busca extrair informações mais complexas de um conjunto de dados. Por exemplo, ao realizar o agrupamento de documentos retornados pelo Google de acordo com seu contexto.

2     – Tarefas da mineração de dados

A mineração de dados possui basicamente duas tarefas principais, são elas: preditivas ou descritivas. As tarefas preditivas buscam predizer o valor de um determinado atributo baseado nos valores de outros atributos. As tarefas descritivas buscam derivar padrões, correlações, tendências, anomalias, agrupamentos dentro de uma grande massa de dados.
Em cenários reais existem questões que para ser respondidas de forma consistente é necessária uma análise de grandes volumes de dados. Observe algumas possíveis questões:
  • Qual o perfil do cliente que consome mais?
  • Que produtos são comprados conjuntamente? E em sequência?
  • Meu site web tem uma boa estrutura?
  • Como as chuvas, variação de temperatura, aplicação de pesticidas afetam as colheitas?
  • Existe uma relação entre o aquecimento global e a frequência e intensidade das perturbações no ecossistema tais como secas, furacões, enchentes?


3     – As etapas do processo de descoberta de conhecimento

A descoberta de conhecimento foi definida como um processo que visa extrair conhecimento de bases de dados. Os dados em sua forma bruta em geral possuem anomalias, dados faltantes. Para eliminar problemas assim é feita a limpeza, integração e seleção dos dados. A transformação e mineração consiste na aplicação das técnicas e algoritmos de extração de padrões. Após este processamento é feita a avaliação dos resultados e visualização dos mesmos.

Este processo é essencialmente iterativo, ou seja, não é necessariamente um caminho único. Muitas vezes é necessário realizar a limpeza de dados várias vezes, ou então o teste de diversas técnicas de mineração para a obtenção dos melhores resultados. Observe a sequência de ações adotadas neste processo.
  • ·         Limpeza dos Dados
  • ·         Integração dos Dados
  • ·         Seleção
  • ·         Transformação
  • ·         Mineração
  • ·         Avaliação ou Pós-Processamento
  • ·         Visualização dos Resultados


Quer fazer download deste artigo?



[MD#1] - Mineração de dados - Introdução [MD#1] - Mineração de dados - Introdução Reviewed by Vinicius dos Santos on 06:14:00 Rating: 5

Nenhum comentário

Escreve ai sua opinião!