Caso de estudio: Data Analytics aplicado al modelo Big Five

13 septiembre 2016

Caso de estudio: Data Analytics aplicado al modelo Big Five

Durante décadas, los psicólogos han centrado una gran parte de sus esfuerzos en el estudio y comprensión de la personalidad y el comportamiento humano. Se han diseñado diferentes modelos de análisis, algunos con mayor acogida que otros, a modo de cuestionarios, como herramienta para medir de forma cuantitativa y estandarizada los perfiles de los individuos bajo estudio y clasificarlos según modelos de personalidad. En este post vamos a describir un caso de estudio de aplicación de las técnicas de Data Analytics sobre datos recogidos en cuestionarios online de evaluación de la personalidad. El objetivo último de nuestro análisis es realizar un agrupamiento de los diferentes perfiles o tipos de personas en función de su personalidad, en nuestro caso usando el modelo Big Five, descrito más adelante, que intenta definir la personalidad en función de 5 grandes factores. En este post nos vamos a centrar en la fase de análisis preliminar de los datos.

El resultado de este análisis puede ser utilizado en diferentes situaciones en las que se requiera un perfil determinado de persona. Utilizando los datos de las respuestas de multitud de participantes, aplicando algoritmos de agrupación de las personalidades y cruzando los datos con otra información propia del usuario que aporte información adicional como los datos de navegación por Internet, las preferencias de compras, su actividad en redes sociales o su historial de geoposicionamiento se pueden llegar a encontrar patrones de comportamiento de usuarios o usuarios de ciertos servicios. Este tipo de análisis tiene un gran potencial y puede aportar mucho valor, por ejemplo, en selección de personal, el diseño de una campaña de marketing de productos con un target específico, selección de grupos para estudios sociológicos, etc., en definitiva, es de utilidad a un amplio espectro de organizaciones o empresas que se dediquen o requieran de forma interna herramientas de análisis de personalidad para recursos humanos, marketing o estudios sociológicos.

Modelo “Big Five”

Uno de los modelos de personalidad con mayor aceptación en psicología es el Modelo de los Cinco Grandes Factores, conocido en inglés como Big Five o Five Factor Model. Este modelo propone una descripción de la personalidad de un individuo basada en cinco factores o dimensiones: extraversión (E), simpatía (A), responsabilidad (C), estabilidad emocional (N) y apertura al cambio (O). Estos factores son evaluados mediante un cuestionario que contiene varias afirmaciones para cada factor, y que el sujeto debe valorar en función de cómo se sienta representado en una escala del 1 (en desacuerdo) al 5 (de acuerdo).

  • Extraversión (extraversion, E): determina el compromiso con el mundo externo. Los extrovertidos son altamente sociables, habladores, tienden a la compañía de otros y son atrevidos en situaciones sociales. En el lado opuesto, los introvertidos son reservados, introspectivos, tranquilos y poco dependientes de otros, prefiriendo estar solo antes que en situaciones sociales animadas. Ejemplos relacionados:
    I am the life of the party.
    I don’t like to draw attention to myself.
  • Simpatía (agreeableness, A): refleja las tendencias interpersonales. En el lado positivo, el sujeto es altruista, confiado y solidario. En el lado opuesto, el individuo es egocentrico, escéptico y competitivo. Ejemplos relacionados:
    I sympathize with others’ feelings.
    I am not interested in other people’s problems.
  • Responsabilidad (conscientiousness, C): refleja el auto-control, la planificación, la organización y la ejecución de tareas. Puntuaciones altas se relaciona con personas tercas y obsesivas. Puntuación baja se relaciona con flexibilidad y espontaneidad, aunque también implica desorden y poca fiabilidad. Ejemplos relacionados:
    I pay attention to details.
    I make a mess of things.
  • Estabilidad emocional (neuroticism, N): refleja la tendencia a experimentar emociones negativas como ira, ansiedad, depresión y vulnerabilidad. Puntuaciones altas representan una persona estable y tranquila, pero puede implicar poco estimulante y despreocupada. Puntuaciones bajas reflejan una personalidad excitable y dinámica, pero también pude conllevar inestabilidad e inseguridad. Ejemplos relacionados:
    I am relaxed most of the time.
    I get stressed out easily.
  • Apertura al cambio (openness, O): determina la apreciación por el arte, la emoción, la aventura y la curiosidad por ideas nuevas y experiencias variadas. Refleja la curiosidad intelectual, la creatividad y la preferencia pos las novedades y la variedad. Una alta puntuación puede percibirse como imprevisible y falta de objetivos, y puede implicar búsqueda de emociones intensas y eufóricas. Baja puntuación implica perseverancia y pragmatismo, y puede percibirse como mente cerrada a cosas nuevas o no conocidas. Ejemplos relacionados:
    I have a vivid imagination.
    I am not interested in abstract ideas.

Descripción de los datos

La realización de test de personalidad online abiertos a todo el mundo genera una gran cantidad de datos que se ponen a disposición de los investigadores en estas áreas. Para nuestro caso de estudio, hemos utilizado los datos del test online sobre Big Five en Personality Testing, en inglés. Los datos fueron descargados de la fuente el día 5 de julio de 2016 y contienen datos actualizados a fecha del 18 de mayo de 2014. El conjunto de datos es un archivo en formato CSV con 19633 entradas datos estructurados que se corresponde con la puntuación introducida por los usuarios a las cuestiones planteadas en el test de personalidad, además de otra información adicional referente al usuario. En concreto, los datos contienen 57 columnas con la siguientes variables ordenadas por orden de importancia para el análisis:

  • E1-E10, N1-N10, A1-A10, C1-C10, O1-O10 (total, 50 variables): recogen la respuesta del usuario a las diferentes preguntas planteadas en el test, presentadas en orden E1, N2, A1, C1, O1, E2… Las respuestas utilizan la siguiente escala: 1=Disagree, 3=Neutral, 5=Agree (0=missed).
  • age: entrada de texto (menores de 13 años no registrados).
  • gender: 1=Male, 2=Female, 3=Other (0=missed).
  • country: código ISO del país, recogido como localización técnica.
  • race: 1=Mixed Race, 2=Arctic (Siberian, Eskimo), 3=Caucasian (European), 4=Caucasian (Indian), 5=Caucasian (Middle East), 6=Caucasian (North African, Other), 7=Indigenous Australian, 8=Native American, 9=North East Asian (Mongol, Tibetan, Korean Japanese, etc), 10=Pacific (Polynesian, Micronesian, etc), 11=South East Asian (Chinese, Thai, Malay, Filipino, etc), 12=West African, Bushmen, Ethiopian, 13=Other (0=missed).
  • engnat: respuesta a “is English your native language?”. 1=yes, 2=no (0=missed).
  • hand: respuesta a “What hand do you use to write with?”. 1=Right, 2=Left, 3=Both (0=missed).
  • source: recoge cómo los participantes llegaron al test, basado en un campo HTTP. 1=from another page on the test website, 2=from google, 3=from facebook, 4=from any url with “.edu” in its domain name (e.g. xxx.edu, xxx.edu.au), 6=other source, or HTTP Referer not provided.

Limpieza de datos y variables sintéticas

Como primer paso, se han creado variables sintéticas producto de la suma de los valores de la respuesta de los usuarios a las preguntas del test. Las variables sintéticas creadas, E, N, A, C, O son, respectivamente, la suma y resta de las variables E1-E10, N1-N10, A1-A10, C1-C10, O1-O10, tomando como criterio las instrucciones de puntuación descritas por los coordinadores del test (explicadas aquí y aquí). Por tanto, las nuevas variables sintéticas (llámense variables de personalidad) creadas tendrán un valor entero entre 10 y 50. Para la mejor visualización de estas variables, se normalizan a valores entre 0 y 10.

Por otro lado, la variable country contiene muchos países con una frecuencia de aparición muy baja. Para tener datos más limpios, se reemplazan los códigos de los paises que aparecen menos de 150 veces por la etiqueta “Other”.

Así, el conjunto de datos a utilizar dispone de 62 variables en total.

Distribución de variables

En la siguiente figura se representa un histograma de las variables seleccionadas.

Como se observa en las gráficas, las variables de personalidad siguen todas una distribución normal. Cabe destacar las variables Simpatía y Apertura al cambio están desplazadas en sentido positivo, con una media superior a 7 y una desviación típica inferior a las demás.

Por otro lado, es importante tener en cuenta la distribución de edades del conjunto de datos, con una media de 26 años, la mayor parte de las entradas están entre los 13 y los 30 años. La cantidad de información a partir de los 50 años se puede considerar despreciable.

También se ve que hay mayor muestra de mujeres (gender=2) que de hombres (gender=1).

Por último, la muestra es en su mayoría proveniente de Estados Unidos.

A continuación se realiza un agrupamiento en rangos de edadeas para la variable age, de forma que la cantidad de posibles valores que esta variable puede tomar se reduce a un conjunto limitado. Tambien se cambia la variable gender, reemplazando los valores numéricos por los valores nominales Male o Female, despreciando otros posibles valores, ya que son muy minoritarios.

En la siguiente gráfica, se representa los valores medios de cada una de las variables. Como se ha visto previamente, todas las variables tienen un valor medio de 5, excepto las variables de Apertura al cambio y Simpatía, que están en torno al 7.

En la siguiente gráfica se representan las relaciones entre las diferentes variables del conjunto de datos. Se ve que la correlación entre las variables es pequeña, agrupándose en una nube uniforme. Por tanto, no se puede extraer de aquí una relación clara entre variables que pueda ser útil.

Estudio de variables: Extraversión

A continuación se va a explorar cómo se comportan las variables cuando los valores de la variable Extraversión están fuera de la media. Para ello, se van a coger los percentiles 15 tanto superior como inferior, y se va a ver cómo se comporta el resto de variables para estos casos.

En las siguientes gráficas se muestran las distribuciones de las variables para los perfiles de gente extrovertida y de gente introvertida. Se ve que la distribución de las variables de Simpatía y Estabilidad emocional son diferentes para cada uno de los perfiles, siendo siendo bastante parecidas las variables de Responsabilidad y Apertura al cambio.

Es destacable que la gente más extrovertida tiene una mayor puntuación en la variable Amabilidad, mientras que la gente más introvertida tiene menor puntuación en la variable Estabilidad emocional.

En cuanto a la variable de edad, se ve que los perfiles extrovertidos son más frecuentes para mayores de 30 años que los perfiles introvertidos son más frecuentes en los jóvenes.

Por último, los datos muestran que los hombres son más introvertidos que las mujeres (57.3%), que se distribuyen simétricamente entre extroversión e introversión.

En el siguiente diagrama se puede comparar el perfil de gente extrovertida y de gente introvertida con el perfil promedio del conjunto de datos. En general, se ve que la gente con un perfil extrovertido tiene valores en el resto de variables superior a la media, mientras que la gente introvertida tiene valores por debajo de la media.

En la siguiente gráfica se representan las relaciones entre las diferentes variables para los perfiles de gente extrovertida e introvertida, mediante diagramas de dispersión (scatter plot). Al igual que para el conjunto de datos completo, se ve que la correlación entre las variables es pequeña, agrupándose los diferentes grupos en nubes con diferente media pero sin apenas una relación lineal clara. Por tanto, tampoco se puede extraer de aquí una relación clara entre variables que pueda ser útil.

El gráfico de violín que se representa a continuación muestra la distribución de edades por género para los perfiles de gente extrovertida e introvertida. Hay que tener en cuenta que los datos no están normalizados, por lo que las alturas de las curvas son respecto al total del conjunto de datos seleccionado, y solo es posible comparar datos para los mismos rangos de edad.

De este gráfico se puede extraer que:

  • Los hombres son más introvertidos que las mujeres por debajo de los 20 años.
  • Los hombres son más extrovertidos en su mayoría a partir de los 30 años.
  • Las mujeres entre 40 y 60 años son más extrovertidas.
  • Las mujeres de más de 60 años son todas introvertidas.

Estudio de variables: Estabilidad emocional

De forma similar, se puede explorar cómo se comportan las variables cuando los valores de Estabilidad emocional están fuera de la media. Para ello, se van a coger los percentiles 15 tanto superior como inferior, y se va a ver cómo se comporta el resto de variables para estos casos.

Analizando las distribuciones de las variables para los perfiles de gente emocionalmente estable y de gente emocionalmente inestable, se observa que la distribución de las variables de Extraversión, Responsabilidad y Simpatía son diferentes para cada perfil, con una media superior en en el caso del perfil de gente emocionalmente estable.

La distribución por edad muestra que la gente mayor es más estable que inestable emocionalmente, mientras que la gente menor de 25 años tiende a ser más inestable.

Por género, es muy destacable el hecho de que sólo el 35.0% de las mujeres esté en el perfil de emocionalmente estable, mientras que solo el 36.8% sea emocionalmente estable.

Comparando el perfil de gente emocionalmente estable y de gente emocionalmente inestable con el perfil promedio del conjunto de datos, en general, se ve (en la siguiente figura) que la gente emocionalmente estable tiene valores en el resto de variables superior a la media, mientras que la gente emocionalmente inestable tiene valores por debajo de la media.

A diferencia de los diagramas de dispersión en el análisis de la variable Extraversión, en este caso sí hay alguna relación algo más clara entre diferentes variables. Por ejemplo, entre las variables Extraversión y Simpatía (coeficiente de correlación de 0.3) se puede ver una relación lineal positiva, aunque es algo dispersa para poder sacar conclusiones claras.

El gráfico de violín que se representa a continuación muestra la distribución por edades para los perfiles de gente emocionalmente estable e inestable. Hay que tener en cuenta que los datos no están normalizados, por lo que las alturas de las curvas son respecto al total del conjunto de datos seleccionado, y solo es posible comparar datos para los mismo rangos de edad. Además, el area de cada curva está normalizado.

De este gráfico se puede extraer que:

  • Las mujeres son más inestables entorno a los 20 años.
  • Las mujeres de más de 40 años son emocionalmente más estables.
  • La estabilidad emocional de los hombres no tiene dependencia de la edad.

Conclusiones

El análisis de datos con este dataset puede ser virtualmente infinito. Aquí sólo hemos presentado una pequeña parte de los estudios que se pueden realizar, a modo de ilustración sobre las técnicas de comprensión de datos que forman parte de Data Analytics. Lo más interesante es que lo más importante no es la aplicación de una determinada técnica de análisis, más o menos sencilla o compleja, sino que dicha técnica nos permita obtener información sobre el escenario que estamos analizando. En este caso, el empleo de histogramas y técnicas de representación gráfica nos permiten modelar una serie de conclusiones sobre las variables en análisis, como las expuestas anteriormente, que pueden ser de gran valor a los investigadores en estas áreas.

En un futuro post abordaremos la identificación de diferentes perfiles de personalidad según el modelo Big Five, aplicando técnicas de análisis de datos, en concreto, clustering con diferentes algoritmos.

Con este estudio queremos ilustrar cómo el empleo de las técnicas de Data Science permiten el análisis y la interpretación de diferentes conjuntos de datos, en este caso sobre cuestionarios de personalidad. Como siempre, lo más importante es que nuestro equipo puede abordar proyectos de Data Analytics como éste en cualquier escenario complejo con las máximas garantías de éxito. Si tiene cualquier pregunta o necesidad en estas áreas, por favor, no dude en contactar con nosotros: estaremos encantados de ayudarle.

Volver a la listaSiguiente artículo
arrow

Titulo

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.