Código y corazón: claves para diseñar asistentes virtuales con emoción
October 13, 2024
La emoción es uno de los grandes retos de la inteligencia artificial. No solo ser capaz de expresarla, dotando así a los asistentes virtuales de una personalidad más definida, más fuerte, que transmita de forma más eficaz el valor de las marcas, sino también de detectarla, emitiendo respuestas más correctas y que satisfagan mejor las necesidades de los usuarios. No podemos olvidar que unas interfaces que simulan el comportamiento y la forma de comunicación característicos de las personas no pueden pasar por alto uno de los componentes más importantes de lo que nos hace humanos: nuestras emociones. Marvin Minsky, uno de los padres de la inteligencia artificial, advertía ya en 1986: «La cuestión no es si las máquinas inteligentes pueden sentir alguna clase de emoción, sino si las máquinas pueden ser inteligentes sin emociones».
Sirva esta advertencia como punto de partida de esta reflexión. El trabajo de diseño conversacional va incorporando de forma creciente distintas herramientas encaminadas a ofrecer una UX conversacional más conseguida y adaptada a los objetivos: entrevistas a stakeholders, construcción de la personalidad, flujos de conversación, entrenamiento intensivo… Unos esfuerzos en los que intervienen distintas disciplinas (lingüistas, desarrolladores, diseñadores, etc.) y que van encaminados hacia la construcción de interacciones cada vez más perfectas, más completas y que simulen mejor la comunicación humana. Cerebro pero también, y sobre todo, corazón.
En el ámbito de la inteligencia artificial no solo han ido transformándose los esfuerzos vinculados al diseño de la conversación, sino también la representación misma de la IA. Los asistentes virtuales de hoy y el horizonte hacia el que avanzamos contrastan totalmente con las primeras representaciones de las inteligencias artificiales, en las que se subrayaba su condición artificial con voces robóticas, prefabricadas, aburridas, sin las variaciones e inflexiones que caracterizan la presencia de emociones en cada interacción humana. La emoción ―detectarla y formularla― es el gran desafío que nos plantea el diseño conversacional.
Problemática del estudio de la emoción
Según Martin (2000), uno de los investigadores de referencia en el análisis de la emoción, existen muchas taxonomías emocionales que responden a distintos criterios: ¿son las emociones culturalmente interpretadas como positivas o negativas? (emoción positiva/emoción negativa) ¿Son las emociones una reacción a un agente externo o una estado de ánimo general? ¿Qué grado presenta la emoción? De todas las variables planteadas por el autor, la más conocida es la que agrupa los distintos tipos de emociones en torno a tres grandes grupos: (in)felicidad, (in)seguridad e (in)satisfacción.
La emoción es un aspecto esencial de nuestra evolución como seres humanos. Su manifestación puede responder a dos causas:
- Una reacción a un determinado estímulo que viene de fuera y que nos acontece, como podría ser sentir miedo ante un coche que se aproxima mientras cruzamos una calle.
- O bien el resultado de un proceso interno. Por ejemplo, la alegría que nos entra si conseguimos terminar a tiempo un proyecto, si solucionamos un determinado problema o si recordamos algo que nos provoca una reacción positiva.
Se trata de un mecanismo determinante en nuestra vida, difícil o directamente imposible de disociar de cualquiera de nuestras interacciones y que se inscribe en lo que se conoce como función expresiva del lenguaje. El estudio de la emoción, independientemente de en la disciplina en la que nos encontremos, no está exento de problemáticas, ya que se trata de un aspecto tan subjetivo, tan poco tangible, que en la mayoría de ocasiones se escurre de los dedos. Estas son algunas de las principales trabas cuando estudiamos el uso de emociones, que podemos abordar a modo de interrogantes:
- ¿Se corresponde el concepto de una determinada emoción con su experiencia? Es decir, cuando digo que siento miedo, ¿lo siento de verdad?
- ¿Cómo se traducen lingüísticamente las emociones? ¿Es lo mismo estar avergonzado que to be ashamed?
- El valor cultural de las emociones. ¿Qué provoca pena, vergüenza o rabia en los diferentes países?
- La manifestación de las emociones puede ser más o menos controlada por el hablante y, en el otro extremo, exagerada intencionadamente.
- No existe un vínculo directo entre expresar una emoción y provocar un estado emocional en nuestro interlocutor.
- Hay palabras del campo emocional (cólera, horror, angustia) que señalan estados emocionales pero no necesariamente despiertan esa emoción. Como señala Charaudeau, incluso pueden provocar el efecto contrario.
- Por el contrario, existen determinadas interacciones que, sin contener términos relacionados con ellas y en un contexto compartido entre emisor y receptor, son susceptibles de provocar un determinado efecto emocional.
Apuntaba el filósofo John Elster en 1995: «No sé si los otros ven los colores como yo, ni si sus emociones son las mismas que las mías. Cuando experimentan vergüenza, ¿sienten ellos lo que mismo que yo siento cuando tengo vergüenza? No se puede responder a estar pregunta; hasta puede que no tenga ningún sentido».
Además, las interacciones emocionales ―aunque ¿cuáles no lo son?― ponen en juego la solidaridad entre emisor y receptor. A la hora de diseñar conversacionales para interfaces conversacionales debemos tener muy presente que cuando la conexión es exitosa, aumenta la empatía y el interlocutor está más abierto a asimilar todo aquello que le diga el emisor, pero cuando la emoción no es compartida o se considera inadecuada o extravagante, corremos el riesgo de perder la confianza y la receptividad de nuestro usuario. De ahí la importancia de diseñar personalidades muy trabajadas, con una adecuada selección de rasgos comunicativos acordes a ellas y un entrenamiento exhaustivo, que nos haga tener en cuenta el mayor número posible de variaciones de un input.
Dejando a un lado todas estas problemáticas que pueden ser un obstáculo cuando entramos a trabajar en el plano emocional, existen una serie de elementos en toda interacción que pueden ayudarnos tanto a rastrear como a expresar determinadas emociones. Podemos encontrarlas en diferentes planos: léxico, morfológico, fonológico, fonético, sintáctico, fraseológico, semántico, pragmático y prosódico/entonativo. Vamos a centrarnos en aquellos planos que tienen una mayor influencia en el diseño de la conversación: morfológico, léxico, sintáctico y entonativo.
Rastreando la emoción en las palabras y en el modo de ordenarlas al hablar: nivel morfológico, léxico y sintáctico
¿Cómo se manifiesta la emoción en las palabras que seleccionamos? A un nivel morfológico (que analiza la estructura que conforma nuestras palabras y su categoría gramatical), la emoción puede manifestarse a través del uso de prefijos o sufijos. Por ejemplo, el uso del diminutivo puede servirnos para expresar afecto y restar gravedad a un determinado momento (Ven aquí un momentito), o con uso irónico que deja entrever reproche o un juicio negativo (Vaya cochecito se ha comprado mi vecino, antipatía*).* La intensificación que permite el uso del aumentativo opera también con un uso emocional: Menudo papelón has hecho (desagrado) o He encontrado un chollazo (alegría).
Otro de los niveles a través de los cuales se expresa la emoción es el pragmático, que hace referencia al modo en el que el contexto determina la interpretación de un determinado significado. Destaca, en este nivel el uso de determinados marcadores discursivos conductores de emoción, como desgraciadamente (pena/miseria) o afortunadamente (alegría).
Pero si hay un nivel donde la emoción se manifiesta en su máxima expresión, ese es el léxico. Entran aquí términos que presentan un alto nivel de intensidad y que se enmarcan en el vocabulario puramente emocional: amar, encantar, adorar, odiar, detestar, horrible, asqueroso, lamentable, adorable, fascinante, etc. Se incluye aquí, asimismo, el uso de frases hechas que tienen un alto valor metafórico: no tener abuela, pasarlo de cine, tener pájaros en la cabeza, etc. Una herramienta de mucho valor en este punto es emoFinder, una completísima recopilación de léxico emotivo elaborada por la Universidad de Santiago de Compostela.
Existen además, determinadas construcciones sintácticas que contienen un gran valor emocional:
-
Yo creía que ese servicio era gratis / Pensaba que ese servicio era gratis (disgusto, incluso reproche hacia el interlocutor).
-
Antes has dicho que era gratis (nuevamente disgusto y reproche)
-
- Yo quiero ir al cine. En este caso, la introducción del yo refuerza el valor emocional del enunciado, actúa como intensificador de la voluntad.
-
Dejad de engañar a los clientes. Se trata de actos directivos cargados de un contenido emocional negativo.
-
Interrogaciones retóricas
-
Todo el mundo sabe que la mejor compañía es x. A través de esta construcción se apela a la emoción del receptor, que puede sentir inferioridad, que si él no lo sabe es peor que los demás.
Expresar emociones a través de la voz: la entonación en las interfaces de voz
Los seres humanos expresamos la emoción no solamente a través de las palabras y oraciones que construimos, sino también en el modo en que las pronunciamos, en las inflexiones y variaciones en el volumen y en el tono, así como en las pausas que dejamos entre ellas. Nuestra voz es un arma cargada de emoción. Es lo que se conoce como el nivel prosódico y entonativo. Esta entonación es lo que nos permite saber si nuestro interlocutor nos está preguntando algo, si nos lo está contando, si está enfadado o si está alegre. A la hora de diseñar conversaciones para interfaces de voz, este nivel de la lengua juega un papel muy importante y se manifiesta a través de tres características: el tono (grado de elevación del sonido que emitimos al hablar), el contorno (variación del nivel en un mismo enunciado) y tempo (velocidad).
- Tristeza: tono grave, contorno plano y tempo lento.
- Alegría: tono alto, contorno variado y tempo rápido.
- Cariño: tono alto, inflexiones suaves y tempo medio.
- Miedo: tono bajo, contorno monótono y tempo lento.
- Sorpresa: tono alto, contorno variado y tempo lento.
- Cólera: tono alto, inflexiones bruscas de intensidad fuerte y tempo rápido.
- Orgullo: tono agudo, intensidad fuerte y tempo lento, reposado.
Existen numerosos estudios que vinculan las características de la voz con la percepción de emociones por parte del receptor.
- La voz aguda y sonora se asocia con infantilismo, poca crediblidad e inmadurez, así como de emociones alteradas, como la euforia o el miedo.
- Por el contrario, la voz grave se vincula a la madurez, la estabilidad o la autoridad.
- Voz plana: reflejan una autoestima baja, cansancio, desinterés o un intento deliberado por ocultar una emoción
- La voz nasal suele percibirse como aburrida y propia de las personas que buscan dar lástima
Hasta aquí una primera aproximación de las posibilidades que abre el uso de la emoción en el diseño de interfaces conversacionales, un fenómeno que abarca varios frentes y que resulta ineludible en el diseño conversacional. Este campo abre la puerta a un mundo por explorar, al que ya se han asomado iniciativas como Q, una voz neutra que huye de los posibles sesgos de género en asistentes virtuales. Porque todo comunica: nuestras palabras, la forma de ordenarlas al hablar, nuestra voz, nuestras pausas. Lo que decimos, lo que no. Nuestras interacciones diarias están llenas de grietas por las que se cuelan, como en una inundación, nuestras emociones. Y, sin ellas, ninguna inteligencia es inteligente.