CRISP-DM Fase I. Comprensión del negocio

19 agosto 2016

CRISP-DM Fase I. Comprensión del negocio

by Julio Villena Román

En un post anterior hicimos una introducción general a la metodología CRISP-DM (Cross Industry Standard Process for Data Mining), una definición normalizada y racionalizada para el ciclo de vida de un proyecto estándar de análisis de datos, de forma análoga a como se hace en la ingeniería del software con los modelos de ciclo de vida de desarrollo de software, que es la que se emplea (o debería emplear) habitualmente para abordar proyectos de Data Analytics. Con este post iniciamos una serie de artículos en la que vamos a describir un poco más en detalle cada fase. En este abordamos la primera fase: Business Understanding, comprensión del negocio o la definición de necesidades del cliente.

La información está resumida de:

Chapman, Pete (NCR); Clinton, Julian (SPSS); Kerber, Randy (NCR); Khabaza, Thomas (SPSS); Reinartz, Thomas (DaimlerChrysler); Shearer, Colin (SPSS); Wirth, Rüdiger (DaimlerChrysler). Step-by-step data mining guide. 2000.

DataPrix. Metodología CRISP-DM para minería de datos. 2007.

Fase I. Comprensión del negocio (Business Understanding)

La siguiente figura presenta las diferentes tareas que componen esta fase. Hay que observar que los autores de la metodología empleaban entonces el término “minería de datos” (data mining), como nombre de las técnicas que actualmente se denominan de Data Analytics o Data Science.

1. Determinación de los objetivos de negocio

El primer paso del proyecto es entender, desde una perspectiva de negocio, lo que el cliente quiere lograr. A menudo el cliente tiene muchos objetivos que compiten entre sí y con una serie de restricciones que deben ser correctamente equilibradas. Se deberían definir los factores importantes desde el principio del proyecto, ya que esto puede influir en el resultado final del mismo.

Al final de esta tarea debe quedar escrita toda la información que se conoce sobre la situación de negocio de la organización en el principio del proyecto.

En definitiva, el primer paso de CRISP-DM es describir el objetivo primario del cliente, desde una perspectiva de negocio, así como describir los criterios para considerar el resultado del proyecto como válido o útil desde el punto de vista del negocio. Esto puede ser muy específico y capaz de ser medido objetivamente, o podría ser más general y de carácter subjetivo.

A modo de guía para el gestor de proyecto, esta es la checklist que debería abordar en esta fase:

  • Identificar claramente el área del problema (por ejemplo, control de fabricación, CRM, desarrollo de negocio…).
  • Describir el problema en términos generales: describir de manera informal el problema a solucionar.
  • Identificar e involucrar en el proyecto a personas o roles claves en el negocio. Definir el responsable de proyecto (project owner). Definir quién va a evaluar los criterios de éxito. Identificar las unidades de negocio que van a ser afectadas por el proyecto de minería de datos.
  • Especificar todas las preguntas de negocio y cualquier otra exigencia tan precisamente como sea posible.
  • Definir los requisitos previos del proyecto: su motivación, objetivos, criterios de éxito…
  • Identificar las necesidades y expectativas de los usuarios.
  • Especificar las ventajas esperadas en términos de negocio.
  • Si el proyecto es evolución de otro proyecto anterior, analizar la solución actual, sus ventajas y desventajas y su nivel de aceptación.
  • Identificar grupos de objetivos (por ejemplo, un informe para la dirección y/o un sistema operacional para ser utilizado por los comerciales).
  • Especificar criterios de éxito de negocio (por ejemplo, mejorar un 10% la tasa de respuesta a una campaña de correo).

Es importante no establecer objetivos inalcanzables y marcar criterios de evaluación tan realistas como sea posible. Además, como control de calidad, cada uno de los criterios de éxito del proyecto debería relacionarse con al menos uno de los objetivos especificados de negocio, a modo de “matriz de trazabilidad” de objetivo de negocio (requisito) vs criterio (caso de prueba) .

2. Evaluación de la situación

Esta tarea implica una investigación más detallada sobre todos los recursos, restricciones, asunciones, y otros factores que deberían ser considerados en la determinación del objetivo de análisis de datos y el plan de proyecto.

Al finalizar esta tarea debería obtenerse un listado de los recursos disponibles para el proyecto, incluyendo el personal, datos (bases de datos, almacenes de datos, exportaciones de datos en tablas estáticas, etc.), recursos computacionales (plataformas de hardware) y software (herramientas de minería de datos, u otro software relevante).

También deberían quedar registrados todos los requerimientos funcionales y no funcionales del proyecto, incluyendo los criterios de finalización (incluso antes de tiempo si no se alcanzan los hitos deseados), la comprensibilidad y criterios de calidad mínima de los resultados a obtener, y la seguridad, así como las cuestiones legales (como parte de esta tarea, se debe asegurar que el uso de los datos está permitido).

Es conveniente listar las asunciones realizadas por el proyecto, y las restricciones sobre él. Las asunciones pueden ser sobre los datos (que pueden ser verificados durante el proyecto de análisis de datos), pero también puede incluir asunciones no comprobables sobre el negocio, relacionadas lógicamente con el proyecto. Las restricciones pueden ser sobre la disponibilidad de recursos, pero puede también incluir restricciones o limitaciones tecnológicas (como el tamaño de conjunto de datos).

Hay que tener en cuenta los riesgos o los acontecimientos que podrían retrasar el proyecto o hacer que falle, así como los planes de contingencia correspondientes (qué acción adoptar si estos riesgos o acontecimientos ocurren).

Por último, debe elaborarse un análisis de coste y beneficio para el proyecto, para tener claras las expectativas alcanzables y determinar rentabilidades.

La lista de comprobaciones para el gestor del proyecto sería:

  • Identificar el hardware básico y su disponibilidad para el proyecto de minería de datos.
  • Identificar las fuentes de datos y de conocimiento y su tipo (fuentes en línea, expertos, documentación escrita, etc.).
  • Comprobar las herramientas y técnicas disponibles.
  • Identificar al administrador de sistemas, el administrador de base de datos, y el personal de soporte técnico para futuras preguntas.
  • Identificar a los analistas de mercado, los expertos en minería de datos, y estadísticos, y comprobar su disponibilidad.
  • Comprobar la disponibilidad de expertos de dominio para fases posteriores.
  • Capturar cualquier requerimiento en la planificación, incluyendo los requerimientos de seguridad, restricciones legales, de privacidad, información, y planificación de proyecto.
  • Aclarar todas las asunciones realizadas (incluyendo las implícitas), en particular, sobre calidad de datos (exactitud, disponibilidad), sobre factores externos (cuestiones económicas, productos competitivos, avances técnicos), las que sirven de base para cualquiera de las estimaciones, y las restricciones generales (por ejemplo, cuestiones legales, presupuesto, escalas de tiempo, y recursos).
  • Comprobar el correcto acceso a fuentes de datos (por ejemplo, restricciones de acceso, la contraseña requerida) y su accesibilidad técnica (los sistemas de operaciones, el sistema de administración de datos, el formato de archivo y de base de datos).
  • Comprobar si el conocimiento relevante es accesible.
  • Comprobar restricciones de presupuesto (gastos fijos, gastos de implementación, etc.).
  • Identificar los riesgos de negocio (por ejemplo, la competencia), de organización (por ejemplo, el departamento que solicita el proyecto no tiene financiación para el proyecto), los riesgos financieros (por ejemplo, aumentar la financiación depende de los resultados iniciales de minería de datos), los riesgos técnicos y los riesgos que dependen de datos y de las fuentes de datos (por ejemplo, la mala calidad y cobertura).
  • Desarrollar planes de contingencia.
  • Estimar el coste para obtener la colección de datos, para desarrollar el proyecto y obtener la solución.
  • Identificar beneficios (por ejemplo, mejorar la satisfacción del cliente, ROI, y el aumento de las ganancias).
  • Estimar los gastos de operación.

Suele ser buena idea generar un glosario de terminología relevante al proyecto, con dos partes: un glosario de terminología de negocio y un glosario de terminología técnica de análisis de datos, ilustrado con ejemplos relevantes al problema de negocio en cuestión.

Es importante tener en cuenta que el proyecto puede necesitar personal técnico en cualquier momento en todas partes del proyecto, por ejemplo durante la transformación de datos.

Cuidado con los costos ocultos, como la extracción y procesamiento repetitivo de los datos, cambios en condiciones laborales del personal involucrado, tiempo requerido para la incorporación de personal adicional, etc.

3. Determinación de los objetivos de la minería de datos

En esta fase hay que describir las salidas que se pretende conseguir en el proyecto que van a permitir el logro de los objetivos de negocio. Los objetivos de minería de datos declaran los objetivos de proyecto en términos técnicos. Por ejemplo, un objetivo de minería de datos podría ser “predecir si se va a superar el valor umbral del ozono en las afueras de la ciudad (y, en el caso de que se supere, cuándo será), utilizando los datos de los valores de ozono de los últimos dos años, y la predicción meteorológica de los próximos dos días”.

Es necesario también definir los criterios de un resultado exitoso para el proyecto en términos técnicos (por ejemplo, un cierto nivel de precisión o un perfil de probabilidad).

La checklist del gestor de proyecto sería:

  • Describir las salidas previstas del proyecto (normalmente técnicas) que permiten el logro de los objetivos de negocio.
  • Traducir las preguntas de negocio a objetivos de minería de datos (segmentación de clientes empleando un algoritmo de clustering).
  • Especificar los datos tipo del problema de análisis de datos (por ejemplo, clasificación, predicción, clustering, etc.).
  • Especificar los criterios para evaluar el modelo (por ejemplo, la exactitud del modelo, su funcionamiento y complejidad).
  • Definir el patrón de pruebas para los criterios de evaluación.
  • Especificar las reglas para aplicar criterios de evaluación subjetivos (por ejemplo, la capacidad descriptiva del modelo).

4. Producir el plan del proyecto

En esta tarea se realiza el plan para alcanzar los objetivos de minería de datos y así alcanzar los objetivos de negocio. El plan debería especificar los pasos a realizar durante el resto del proyecto, incluyendo la selección inicial de herramientas y técnicas.

Al final de la tarea debería existir un listado de las etapas del proyecto, junto con su duración, recursos requeridos, entradas, salidas, y dependencias. Donde sea posible, conviene hacer explícitas las iteraciones en gran escala en el proceso de minería de datos (por ejemplo, las repeticiones del modelado y las fases de evaluación).

Como parte del plan de proyecto, es también importante analizar dependencias entre la planificación de tiempo y los riesgos, y marcar los resultados de estos análisis explícitamente en el plan de proyecto.

El plan de proyecto es un documento dinámico: al final de cada fase hay que revisar el progreso y los logros, y actualizarlo si es necesario. Los puntos de revisión específicos para estas actualizaciones son parte del plan de proyecto.

Al final de la primera fase debería realizarse una evaluación inicial de herramientas y técnicas (por ejemplo, seleccionando una herramienta de minería de datos que soporte varios métodos para las distintas etapas del proceso).

La checklist de esta tarea incluye:

  • Estimar el esfuerzo y los recursos necesarios para alcanzar y desarrollar la solución.
  • Identificar los pasos críticos del proyecto.
  • Definir los puntos de decisión.
  • Definir los puntos de revisión.
  • Identificar las principales iteraciones.
  • Crear una lista de criterios de selección para herramientas y técnicas (o usar uno existente si está disponible), escoger dichas herramientas y técnicas y evaluar su adecuación al problema.
  • Definir el plan de proyecto y discutir su viabilidad con todo el personal involucrado.
  • Combinar todos los objetivos identificados y las técnicas seleccionadas en un procedimiento coherente que aborde los objetivos del negocio y defina los criterios de éxito

Con esta tarea concluye la Fase I de CRISP-DM, Business Understanding, dedicada a la comprensión del negocio. En un siguiente post abordaremos la Fase II, Data Understanding, que se centra en el estudio y comprensión en profundidad de los datos disponibles para el proyecto.

Nuestro equipo de profesionales puede abordar proyectos de Data Analytics en cualquier escenario complejo con las máximas garantías de éxito, aplicando la metodología CRISP-DM. Si tiene cualquier pregunta o necesidad en estas áreas, por favor, no dude en contactar con nosotros, que estaremos encantados de ayudarle.

Volver a la listaSiguiente artículo
arrow

Titulo

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.