Caso de estudio: aplicando Data Science en Decide Madrid

22 enero 2018

Caso de estudio: aplicando Data Science en Decide Madrid

Caso de estudio: aplicando Data Science para analizar la participación en Decide Madrid

El día 15 de septiembre de 2015, bajo el lema “La ciudad que quieres será la ciudad que quieras”, el Ayuntamiento de la ciudad de Madrid lanzó la plataforma Decide Madrid para permitir a los ciudadanos ofrecer su opinión sobre diferentes temas y crear y votar propuestas que conciernen a la ciudad.

El sistema establecido por el Ayuntamiento brinda a los ciudadanos la posibilidad de crear propuestas, que serán tenidas en consideración cuando tengan un número de apoyos superior al 2% del censo madrileño mayor de 16 años (en el momento de su lanzamiento, 54.128 votos). Todas las propuestas que pasen este primer filtro, serán sometidas a votación por todos los madrileños. De todos los votos registrados, se necesitará superar el 50% de votos positivos para que las propuestas sean llevadas a cabo.

En s|ngular hemos realizado un pequeño estudio de las propuestas de Decide Madrid recogidas en este periodo desde el punto de vista de Data Science. La ficha metodológica del estudio es la siguiente:

  • Los datos de partida fueron extraídos el día 1 de abril de 2016 mediante crawling del sitio web, obteniendo información estructurada en formato CSV de 9710 propuestas desde el 15 de septiembre de 2015, conteniendo 10 variables (url, título de la propuesta, texto, autor, identificador único, fecha, votos, categorías, lugares y etiquetas).
  • Los lugares son los distritos de actuación (ninguno, uno o varios) a los que hace referencia la propuesta, uno de los 21 distritos de Madrid o toda la ciudad.
  • Las etiquetas son textos introducidos por el usuario libremente.
  • Las categorías pueden ser una o varias de las siguientes: asociaciones, cultura, deportes, derechos sociales, distritos, economía, empleo, equidad, medios, participación, salud, seguridad y emergencias, sostenibilidad, transparencia, urbanismo, movilidad, y medio ambiente.
  • Se realizó una limpieza y preprocesado de datos para mejorar el etiquetado del distrito (en muchas ocasiones el nombre del/de los distrito/s aparece en “etiquetas” y no en “lugar”) y se incorporó una variable “mes”.
  • Limpieza de datos para eliminar propuestas sin información.
  • Proceso de análisis según metodología CRISP-DM: análisis y comprensión del problema, de los datos, modelado y evaluación.

Distribución de propuestas

La distribución por mes se muestra en la figura siguiente. En septiembre, cuando se lanzó la plataforma, se realizó el máximo del número de propuestas al mes, y poco a poco la generación de nuevas propuestas ha ido decreciendo.

En la figura siguiente, se observa que los temas con mayor número de propuestas son movilidad y medio ambiente.

Sin embargo, analizando la media de votos por propuestas en cada categoría, se concluye que los ciudadanos se vuelcan más en propuestas sobre asociaciones y transparencia, aunque el número de propuestas sea menor.

La zona con mayor número de propuestas es Centro, seguida de Arganzuela y Carabanchel. Muy pocas propuestas en Chamartín y Barajas. La zona con mayor número de votos es Centro, que además es el que más propuestas presentaba. Por el contrario, Barajas es el distrito con mayor media de votos por propuestas, mostrando más participación relativa (o concienciación sobre estos temas) independientemente al número de propuestas.

En el Centro un 86,7% de las propuestas son únicas. Arganzuela es el distrito donde más usuarios proponen más de una propuesta.

Echando un vistazo rápido a las propuestas más votadas, llama la atención que la propuesta más popular (billete único para el transporte público) cuente solo con 27454 apoyos, sólo un 50% necesarios para ser tenida en cuenta. Parece entonces razonable pensar que quizá el número de votos necesarios esté sobreestimado.

Agrupamiento de propuestas

Un análisis sencillo es aplicar un algoritmo de agrupamiento con el objetivo de obtener una primera separación de propuestas de acuerdo a las categorías a las que pertenecen. Para ello, se hace uso del algoritmo k-Means, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo más cercano a la media, caracterizado por su centroide.

El número de grupos, k, es elegido por el usuario y no por el algoritmo. En este caso, se ha seleccionado k=6 ya que tras probar con varios valores se comprobó que este valor era el que mejor definía los grupos.

Como resultado de la aplicación del algoritmo, empleando la herramienta RapidMiner, se obtienen los grupos (identificados por sus centroides o representantes de grupo) mostrados en la figura siguiente. Cada grupo viene identificado por un color y una frecuencia relativa de número de propuestas realizadas en cada categoría.

Los grupos obtenidos se han nombrado según las categorías más frecuentes:
  • Los ecologistas: Hablan de medioambiente, sostenibilidad y movilidad.
  • Los comunes: Hablan un poco de todo.
  • Los concienciados: Hablan de cultura, derechos s
  • ociales y participación.
  • Los verdes: Hablan de derechos sociales, economía y sostenibilidad.
  • Los medioambientales: Hablan de medio ambiente y salud.
  • Los moviditos: Hablan de movilidad.

Con este análisis se pueden definir políticas de actuación específicas orientadas a las diferentes concienciaciones de cada grupo de usuarios de Decide Madrid, incluso distribuyendo inversiones por interés de la ciudadanía.

Análisis de similitud de propuestas

Analizando los datos, es fácil advertir la existencia de propuestas repetidas. Esto podría suponer un problema, ya que muchos usuarios de Decide Madrid exponen su petición sin antes comprobar si dicha propuesta ya había sido creada y esto conlleva una pérdida de votos, dado que el número total de apoyos que podría haberse obtenido se ve dividido entre todas las propuestas que hacen referencia a lo mismo. Por eso se decidió analizar todas las propuestas de la plataforma, con el objetivo de detectar las propuestas similares y poder ofrecer soluciones para este problema.

Para ejecutar más eficientemente el algoritmo de similitud, el texto con el que se trabaja debe ser lematizado previamente, es decir, convertir la forma flexionada de cada palabra en su lema correspondiente. Para ello, se ha utilizado la API de lematización de Meaning Cloud.

El algoritmo de similitud de textos devuelve parejas de textos junto a un valor de similitud entre ellos. Gracias a este resultado, somos capaces de encontrar tres tipos de relaciones entre propuestas:

  • Propuestas similares: grupos de propuestas con el mismo objetivo concreto
  • Propuestas relacionadas: grupos de propuestas relacionadas con el mismo tema, sin tener necesariamente el mismo objetivo
  • Propuestas contrarias: grupos de propuestas que hacen referencia al mismo tema, pero plantean opiniones opuestas.

Conclusiones

Aplicando técnicas de Data Analytics como las aquí descritas se pueden extraer conclusiones interesantes para la explotación de la información recogida por la plataforma Decide Madrid, haciéndola así una herramienta más eficiente y eficaz para los propósitos diseñados de mejora de la participación ciudadana.

Teniendo en cuenta el problema de la división de votos en propuestas similares descrita, una posible solución sería la aplicación del algoritmo de cálculo de similitud descrito, para, a la hora de crear una propuesta, ofrecer al usuario la posibilidad de apoyar una de las propuestas similares existentes, con el objetivo de evitar la duplicación de propuestas.

Volver a la listaSiguiente artículo
arrow

Titulo

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.