Currently Reading:

Enfermedades cardíacas

Sep 15, 2017
2 minute read
Previous Post Next Post

Enfermedades cardíacas


El problema se basa en el estudio de enfermedades cardíacas, a partir del estudio de 4 dataset de datos tomados de 4 lugares geográficamente distantes (Cleveland - EE.UU. EAST, Hungría, Suiza, y VA Long Beach - EE.UU. WEST), obtenidos del sitio web de la Universidad de California (Irvine). El objetivo principal de este estudio es la predicción de la existencia de enfermedades al corazón del paciente. A partir de estos datasets, se pretende lograr una predicción de si el paciente padece/rá (o no) una enfermedad cardíaca. Dado lo costoso de los tratamientos médicos para enfermedades cardíacas, la intención es poder a partir de estos datos, predecir cuales son aquellos pacientes con mayor riesgo de enfermedades cardíacas, y así tratar a este tipo de pacientes de forma preventiva, y no reactiva. Con esto se disminuirían tanto los costos de tratamiento reactivo, así como evitar posibles cuadros cardíacos.

corazón

Objetivos

  • Poder aplicar lo aprendido hasta el momento en un caso real
  • Aplicar lo aprendido en estas semanas para construir un modelo con buen porcentaje de predicción
  • Poder integrar varios datasets distintos

Análisis del problema

El problema que se plantea es poder a travéz de un conjuntos de atributos relacionados a la salud de una persona predecir si la misma tenia un problema cardiaco. El problema se trata claramente de un caso de clasificacion ya que se trata de determinar si la persona presentara una enfermedad o no.

Información de dataset

Se contaba con cuatros datasets distintos, los cuales contaban con los mismos atributos. Se contaba con valores faltantes, según el dataset algunos atributos no contaban con ningún valor. Los datasets utilizados se encuentran en el siguiente link: http://archive.ics.uci.edu/ml/datasets/heart+Disease.

El dataset cuenta con las siguientes caracteristicas:

  • Total de datos: 899
  • Total de atributos: 76
  • Cantidad de atributos utilizados por otros: 14
  • Cantidad de atributos relevantes empleados en nuestra solución: 22

Método de aprendizaje utilizado

Para este caso de estudio se trabajará con el método de Regresión Logística, dentro del documento adjunto se explican las razones de la elección del mismo.

Técnica de validación del modelo

Las técnicas utilizadas en este caso de estudio son Cross Validation y Split Validation.

Herramienta utilizada

En este caso de estudio se trabajo con la herramienta RapidMiner.

Solución

  • Documento de la investigación en el siguiente link.
  • Proceso de RapidMiner con la guía para replicar los resultados de la investigación en el siguiente link.

Conclusión

Luego del estudio realizado, y de la experimentación con diferentes modelos y operadores llegamos a la conclusión de que el modelo generado obtiene mejores resultados con la selección de atributos propia que con la realizada en el estudio original. También se considera que haciendo un estudio más a fondo de cada uno de los atributos, tal vez con la ayuda de expertos en el tema, se podría optimizar aún más este modelo. Para una conclusión más detallada puede consultar la sección Análisis de los Resultados en el documento del estudio