Como usar o weka para analisar dados

Como usar o weka para analisar dados

A área da medicina é uma das mais prestigiadas e importantes áreas da ciência. Curar doenças e detecta-las muitas vezes passa pelo crivo de profissionais renomados e de anos de experiência para que o resultado seja satisfatório.    No entanto, esta área tem sido “invadida” pela tecnologia e cada dia mais os médicos têm contado com exames, robôs cirurgiões, literatura na palma da mão, etc. Todos estes recursos permitem que o profissional desempenhe melhor seu trabalho.  

Neste artigo veremos como é possível utilizar a ciência da computação e técnicas de Inteligência Artificial (reconhecimento de padrões) para conseguir um diagnóstico.       

Aprendizado supervisionado  

Para reconhecer se algo é normal ou não, precisamos primeiro saber o que é normal. certo? Inconscientemente nós fazemos isso o tempo todo. Por exemplo, observamos o rosto de pessoas todos os dias, conhecemos diversas expressões, traços de idade, imperfeições, maquiagem, etc.

Mas quando vemos algo diferente, logo nosso cérebro nos manda um sinal… Opa! isso não é normal.   

Então, podemos dizer que o normal depende muito do que você já viu como exemplos e julgará ao final a “normalidade”. Imagine que você vive em um local que todas as pessoas possuem 6 dedos, qual sua reação a ver uma pessoa com 5 dedos?  

Quem são nossos exemplos?  

O dataset escolhido contém dados numéricos sobre a coluna do paciente e usa os dados para classificar uma exemplo em normal ou anormal. Neste conjunto de dados, estão presentes 310 exemplos, 13 atributos, 12 atributos numéricos, 1 classe binária.  

Um pouco de conhecimento apresentado no dataset   

O dataset foi extraído de um repositório publico e está disponível aqui.  

A dor lombar pode ser causada por uma variedade de problemas em qualquer parte da complexa e interconectada rede de músculos, nervos, ossos, discos ou tendões da coluna lombar.   

Fontes típicas de dor lombar incluem:   

  • As grandes raízes nervosas na região lombar que vão para as pernas podem ficar irritadas. 
  • Os nervos menores que suprem a região lombar podem ficar irritados. 
  • Os grandes músculos das costas inferiores (eretores da espinha) podem ficar tensos. 
  • Os ossos, ligamentos ou articulações podem estar danificados. 
  • O disco intervertebral pode estar degenerando uma irritação ou problema em qualquer uma dessas estruturas pode causar dor lombar e / ou dor que irradia ou é referida a outras partes do corpo. 
  • Muitos problemas nas costas também causam espasmos musculares nas costas, que não parecem muito, mas podem causar dor e incapacidade severas.

  Embora a dor lombar seja extremamente comum, os sintomas e a gravidade da dor lombar variam muito. Uma simples distensão do músculo lombar pode ser excruciante o suficiente para exigir uma visita à sala de emergência, enquanto um disco em degeneração pode causar apenas desconforto leve e intermitente  

  • Hiperlordoses e hipercifoses: são caracterizadas por um aumento de uma ou mais lordose ou cifose da coluna. As hipolordoses e hipocifoses são caracterizadas por uma diminuição de uma ou mais lordose ou cifose da coluna.  
  • Escoliose: A escoliose é uma curvatura anormal da coluna para um dos lados do tronco, podendo causar assimetria e dor.  
  • Espondilolistese: Distúrbio da coluna em que um osso (vértebra) desliza para frente sobre o osso abaixo dele.   5)

Algoritmos usados  

Weka j48  

O algoritmo J48, desenvolvido por Ross Quinlan, constrói árvores de decisão a partir de um conjunto de dados de treinamento. As árvores de decisão geradas pelo algoritmo podem ser utilizadas para classificação, logo são conhecidas como classificadores estatísticos.     

CART  

CART ou Classification And Regression Tree (árvore de classificação e regressão) é um algoritmo usado na mineração de dados que usa dois conceitos principais: A análise da árvore de classificação é feita quando o resultado previsto é a classe à qual os dados pertencem. A análise de árvore de regressão é quando o resultado previsto pode ser considerado um número real (por exemplo, o preço de uma casa ou o tempo de permanência de um paciente em um hospital). Esse algoritmo usa a métrica de Gini para dividir as categorias em grupos separados.      

Os algoritmos citados foram aplicados utilizando o Weka. Faça download da ferramenta aqui.  

 Ao utilizar o J48 com as seguintes opções:

  • unpruned – false,
  • confidence factor: 0.25
  • sem a seleção de atributos.

Conclusão  

Com estes dados, o algoritmo foi treinado para receber um novo exemplo e a partir do modelo construído podemos avaliar com uma precisão de 84.5% se uma coluna é anormal e 75% se a coluna é normal. Este modelo poderia auxiliar médicos a realizar um diagnóstico com maior agilidade e precisão.  

Vinicius dos Santos

Apenas um apaixonado por Ciência da Computação e forma com que ela pode transformar vidas!

Deixe uma resposta