CRISP-DM Fase III. Data Preparation.

21 septiembre 2016

CRISP-DM Fase III. Data Preparation.

by Julio Villena Román

En este post continuamos la descripción de las fases de la metodología CRISP-DM (Cross Industry Standard Process for Data Mining), tras haber descrito la Fase II de Data Understanding o comprensión de los datos, a la que sigue la tercera fase de Data Preparation, o análisis de los datos y selección de características.

Como recordatorio, la información está resumida de:

Chapman, Pete (NCR); Clinton, Julian (SPSS); Kerber, Randy (NCR); Khabaza, Thomas (SPSS); Reinartz, Thomas (DaimlerChrysler); Shearer, Colin (SPSS); Wirth, Rüdiger (DaimlerChrysler). Step-by-step data mining guide. 2000.

DataPrix. Metodología CRISP-DM para minería de datos. 2007.

CRISP-DM Fase III. Data Preparation. Análisis de los datos y selección de características

La siguiente figura presenta las diferentes tareas que componen esta fase.

 

Selección de datos

Aquí se decide qué datos se utilizarán en el análisis. Los criterios incluyen: la importancia de los datos respecto a los objetivos de la minería de datos, calidad, y restricciones técnicas (como límites sobre el volumen de datos o los tipos de datos). Por tanto, debe generarse una lista con los datos incluidos o excluidos, y los motivos para estas decisiones.

La lista de comprobación para el gestor del proyecto de análisis de datos:

  • Listar los datos a ser empleados/excluidos y los motivos para estas decisiones.
  • Recoger datos adicionales apropiados (de diferentes fuentes internas y externas).
  • Realizar los tests de correlación para decidir si se incluyen los campos.
  • Reconsiderar los Criterios de Selección de Datos (tarea II.1) según la calidad real de los datos y el resultado de la exploración de datos y el modelado.
  • Seleccionar diferentes subconjuntos de datos (por ejemplo, atributos diferentes, sólo los datos que tengan ciertas condiciones, etc.).
  • Considerar el uso de técnicas de muestreo.
  • Documentar el razonamiento para la inclusión/exclusión de atributos.

Limpieza de datos

Si es necesario, hay que aumentar la calidad de los datos al nivel requerido por las técnicas de análisis seleccionadas. Esto puede implicar la selección de subconjuntos de datos limpios o la inserción de datos por defecto adecuados.

El gestor de proyecto debe considerar:

  • Considerar cómo tratar con cualquier tipo de ruido observado.
  • Corregir, remover, o ignorar el ruido.
  • Decidir cómo tratar con valores especiales y su significado.
  • Reconsiderar los Criterios de Selección de Datos (tarea II.1) según la calidad de los datos tras el proceso de limpieza.

Construcción de datos

Esta tarea incluye las operaciones de preparación de datos, tales como la producción de atributos derivados (también llamadas variables sintéticas), el ingreso de nuevos registros, o la transformación de valores para atributos existentes.

Los atributos derivados son los atributos nuevos que se construyen con uno o más atributos existentes en el mismo registro (ejemplo: área = longitud * anchura).

La checklist:

  • Construir atributos derivados, completar registros nuevos, o transformar valores para atributos existentes.
  • Decidir qué atributos pueden/deben ser normalizados.
  • Considerar agregar nueva información sobre la importancia o relevancia de los atributos (por ejemplo, atributos con peso, normalización ponderada).
  • ¿Cómo se puede construir o imputar atributos ausentes? Decidir el tipo de construcción (por ejemplo, la combinación, el promedio, la regresión).
  • Especificar los pasos de las transformaciones necesarias para ejecutar las operaciones (por ejemplo, cambiar un binning de un atributo numérico).
  • Ejecutar los pasos de transformación.

Integración de datos

Aquí se combina información de varias tablas o registros para crear nuevos registros o valores. La combinación de tablas es la unión simultánea de dos o más tablas que tienen información diferente sobre el mismo objeto. Los datos combinados también incluyen agregaciones (operaciones en la que nuevos valores se calculan como información resumida de distintos registros y/o tablas).

Como lista de comprobación:

  • Comprobar si las aplicaciones de integración son capaces de integrar las fuentes de entrada como se requiere.
  • Integrar fuentes y resultados almacenados.
  • Reconsiderar los Criterios de Selección de Datos (tarea II.1) según los resultados de la integración de datos.

Formateado datos

Formatear se refiere a hacer modificaciones sintácticas a los datos. Estas modificaciones no cambian su significado, pero son necesarias para la herramienta de modelado (por ejemplo, los datos en el orden correcto, con la delimitación de parámetros requerida).

En general, son cambios puramente sintácticos realizados para satisfacer las exigencias de la herramienta específica de modelado.

Con esta tarea concluye la Fase III, Data Preparation, de análisis de los datos y selección de características. En un siguiente post abordaremos la Fase IV, Modeling, centrada propiamente en el modelado de los datos mediante algoritmos de aprendizaje computacional.

Nuestro equipo de profesionales puede abordar proyectos de Data Analytics en cualquier escenario complejo con las máximas garantías de éxito, aplicando la metodología CRISP-DM. Si tiene cualquier pregunta o necesidad en estas áreas, por favor, no dude en contactar con nosotros, que estaremos encantados de ayudarle.

Volver a la listaSiguiente artículo
arrow

Titulo

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.