CRISP-DM Fase II. Data Understanding.

06 septiembre 2016

CRISP-DM Fase II. Data Understanding.

by Julio Villena Román

En este post continuamos la descripción de las fases de la metodología CRISP-DM (Cross Industry Standard Process for Data Mining), tras haber descrito la Fase I de Business Understanding o comprensión del negocio, a la que sigue la segunda fase de Data Understanding, o estudio y comprensión de los datos disponibles para el proyecto de análisis de datos.

De nuevo, y por completitud, la información está resumida de:

Chapman, Pete (NCR); Clinton, Julian (SPSS); Kerber, Randy (NCR); Khabaza, Thomas (SPSS); Reinartz, Thomas (DaimlerChrysler); Shearer, Colin (SPSS); Wirth, Rüdiger (DaimlerChrysler). Step-by-step data mining guide. 2000.

DataPrix. Metodología CRISP-DM para minería de datos. 2007.

CRISP-DM Fase II. Data Understanding. Estudio y comprensión de los datos

La siguiente figura presenta las diferentes tareas que componen esta fase.

Recolección de datos de partida

En este punto se obtienen los datos (o el acceso a los datos) listados en los recursos del proyecto. Si se adquieren datos de múltiples fuentes, la integración es un tema adicional a tratar.

Al final de esta tarea debe haber un listado del conjunto de datos, juntos con los métodos usados para obtenerlos, así como un registro de los problemas encontrados y las soluciones adoptadas.

Como checklist para el gestor del proyecto, habría que tener en cuenta los siguientes puntos:

  • Especificar los criterios de selección (por ejemplo, ¿qué atributos son necesarios para los objetivos específicos de minería de datos? ¿qué atributos han sido identificados como no pertinentes? ¿cuántos atributos podemos manejar con las técnicas escogidas?)
  • Elegir las tablas/archivos de interés
  • Elegir los datos dentro de una tabla/archivo, teniendo en cuenta cuánto histórico es necesario
  • Tener cuidado con que los datos recolectados de diferentes fuentes pueden dar lugar a problemas de calidad cuando sean combinados
  • Si los datos contienen información no estructurada (entradas de texto libre), ¿cómo hay que codificarlos para ser modelados?
  • ¿Es posible automatizar el proceso de extracción los datos?

Describir los datos

En esta tarea se examinan las propiedades superficiales de los datos. Se describen los datos incluyendo su formato, la cantidad de datos, los identificadores de los campos y cualquier otro rasgo superficial (estadísticos básicos). También se evalúan si los datos obtenidos satisfacen las exigencias más relevantes del problema de negocio y de minería de datos.

La lista de comprobación incluye:

  • Describir las tablas de datos y sus relaciones.
  • Analizar el volumen de datos y su complejidad.
  • Comprobar la accesibilidad y disponibilidad de atributos.
  • Comprobar los tipos de atributos (numérico, simbólico, la taxonomía, etc.).
  • Comprobar el rango de valores de los atributos.
  • Analizar las correlaciones entre atributos.
  • Comprender el significado de cada atributo y clasificar (describir) el valor en términos de negocio.
  • Para cada atributo, calcular sus estadísticos básicos (por ejemplo, calcule la distribución, el promedio, el máximo, el mínimo, la desviación estándar, la varianza, la moda, la inclinación, etc.) y relacionar los resultados con su significado en términos de negocio.
  • Decidir si el atributo es relevante para los objetivos específicos de la minería de datos.
  • Determinar si el significado del atributo es usado coherentemente.
  • Entrevistar a expertos de dominio para obtener su opinión sobre la importancia de los atributos.
  • Decidir si es necesario balancear los datos (en distribuciones sesgadas).
  • Analizar relaciones clave.
  • Comprobar la cantidad de coincidencias entre valores de atributos claves en las diferentes tablas.

Explorar los datos

Esta tarea incluye el estudio de la distribución de atributos claves relacionados a pares, los resultados de agregaciones simples, las propiedades de las subpoblaciones (muestreos) significativas, y análisis estadísticos simples. Estos análisis directamente pueden dirigir los objetivos de minería de datos, y también pueden contribuir o refinar la descripción de datos e informes de calidad.

Como conclusión de esta tarea, se deben haber descrito los resultados, incluyendo primeras conclusiones o hipótesis iniciales sobre los datos, las variables involucradas, la existencia de relaciones entre ellas y su impacto sobre el resto del proyecto.

La checklist:

  • Analizar en detalles las propiedades de los atributos interesantes (por ejemplo, sus estadísticos básicos, las sub-poblaciones interesantes).
  • Identificar las características de las sub-poblaciones (muestreos).
  • Formar suposiciones para análisis futuros.
  • Considerar y evaluar la información y las conclusiones de la anterior tarea de descripciones de datos.
  • Formar hipótesis e identificar acciones, transformando dicha hipótesis en un objetivo de minería de datos, si es posible.
  • Aclarar los objetivos de análisis de datos o hacerlos más exactos. Una búsqueda “ciega” no es necesariamente inútil, pero una búsqueda más dirigida hacia objetivos de negocio es preferible.
  • Realizar un análisis básico para verificar las hipótesis.

Verificar la calidad de los datos

En esta fase se debe hacer un examen de la calidad de los datos. ¿Están completos? ¿Cubren todos los casos requeridos? ¿Son correctos o contienen errores? Si hay errores, ¿cómo son de frecuentes? ¿Hay valores omitidos? Si es así, ¿cómo se representan, dónde ocurre esto, y cómo son de frecuentes?

El resultado debe ser la verificación de calidad de datos; si existen problemas de calidad, se debe elaborar un listado de posibles soluciones.

Como lista de comprobación:

  • Comprobar la cobertura de los datos (por ejemplo, si todos los valores posibles son representados).
  • Comprobar las claves.
  • Verificar que los significados de los atributos y valores contenidos se satisfacen simultáneamente.
  • Identificar los atributos omitidos y los campos en blanco.
  • Establecer el significado de datos que faltan o son erróneos, y comprobar atributos con valores diferentes que tienen significados similares.
  • Comprobar la ortografía y el formato de los valores (por ejemplo, mismo valor pero a veces comienza con una letra minúscula, a veces con una letra mayúscula).
  • Comprobar las desviaciones, y establecer si una desviación es “ruido” (outlier) o puede indicar un fenómeno interesante.
  • Comprobar la plausibilidad de los valores (por ejemplo, todos los campos que tienen el mismo o casi los mismos valores).
  • Comprobar el ruido e inconsistencias entre fuentes.

Suele ser buena idea centrarse en cualquiera de los atributos que estén en desacuerdo con el sentido común. Es conveniente usar técnicas de visualización, histogramas, etc. para revelar inconsistencias en los datos.

A veces puede ser necesario excluir algunos datos que no tengan calidad suficiente o que no aporten información válida para el negocio y para el problema de análisis de datos.

Con esta tarea concluye la Fase II de CRISP-DM, Data Understanding, que se centra en el estudio y comprensión en profundidad de los datos disponibles para el proyecto. En un siguiente post abordaremos la Fase III, Data Preparation, de análisis de los datos y selección de características.

Nuestro equipo de profesionales puede abordar proyectos de Data Analytics en cualquier escenario complejo con las máximas garantías de éxito, aplicando la metodología CRISP-DM. Si tiene cualquier pregunta o necesidad en estas áreas, por favor, no dude en contactar con nosotros, que estaremos encantados de ayudarle.

Volver a la listaSiguiente artículo
arrow

Titulo

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.