Los retos de validar un prototipo de voz con usuarios

18 febrero 2020

Los retos de validar un prototipo de voz con usuarios

by Mike Noah

La creación de productos y servicios de voz no es una excepción a la hora de contar con fases de evaluación con usuarios que nos permitan validar, desestimar y tomar decisiones de diseño; sin embargo, cuenta con ciertas particularidades que apelan directamente al carácter observador de quienes participan en las sesiones de testing.

Lenguaje, información y conversación

En el contexto de creación de una skill para Alexa, uno de los mayores aprendizajes obtenidos por nuestro equipo estuvo marcado por el proceso de prototipado de flujos de conversación y guiones de diálogo (inspirados en guiones de cine).

Observar en los tests que los participantes no pudieran entender la conversación de manera completa y su propósito, o incluso identificar si habían conseguido algo o no al final durante las primeras sesiones, fue… fantástico. Con respecto al trabajo de evaluación indicaba que teníamos que matizar la forma de obtener información útil. La complejidad de la conversación y la definición de la propuesta de valor atenuaba la observación de componentes tan concretos como puede ser el vocabulario utilizado.

A la hora de evaluar nuestras frases y flujos de conversación con los potenciales usuarios debíamos acentuar el reto inicial: exponer el diálogo diseñado ante la manera en la que las personas esperan recibir cierta información y, no menos importante, cómo la asimilan y cómo responden ante el sistema. Eso se traduce en tres componentes: lenguaje, información y conversación. Y no estábamos consiguiendo aprender todo lo que queríamos sobre ello con nuestra manera de realizar los tests, haciéndonos reflexionar sobre la forma de enfrentar los restantes.

Reorientando las sesiones mediante la observación

El primer paso fue dividir las evaluaciones por porciones independientes; o dicho de otro modo, por diálogos con inicio y cierre propios. Esto nos permitió crear foco sobre los contenidos de la conversación y, además, comparar entre las diferentes partes. Fue un buen primer paso pero la realidad es que, además de esta división, el mayor reto estaba en todo momento en la misma interacción de los participantes con la interfaz, la voz. Y por fin, los cambios dieron resultados.

Al principio, las sesiones de mago de Oz contaban, además del participante, con dos diseñadores y un desarrollador. Este último controlaba la conversación a través de su ordenador enviando las frases correspondientes a un smart-speaker situado junto al usuario presencial, que no era consciente del proceso. Las últimas sesiones contaban con los mismos personajes; sin embargo, ya no había smart-speaker y en su lugar, uno de los diseñadores respondía las frases del diálogo. En el caso de tests en remoto, el interlocutor quedaba fuera de la vista del usuario; y en los casos presenciales, el diseñador debía hacer un esfuerzo para no exceder en ningún momento los límites del diálogo diseñado tanto en forma como en contenido. Esta última dualidad resultó de lo más interesante al encontrarnos con que usuarios en remoto no siempre identificaban al interlocutor con una persona, a la vez que usuarios presenciales no acababan de asociar la presencia del diseñador como una conversación habitual.

sesion de trabajo ux

Foto / Sesión real con usuarios

¿Qué nos llevó a realizar esa transición? El esfuerzo de observar sin atender a la naturaleza del producto e identificar los retos de evaluar prototipos de voz.

Reto #1 La desnaturalización de la interacción

Ante las mismas frases, la actitud de los participantes resultaba más natural cuando eran expresadas por el diseñador y no por el dispositivo. No sólo el diálogo o el vocabulario, si no los gestos y la confianza a la hora de haber entendido el mensaje. Incluso la diligencia mostrada cuando el diálogo alcanzaba algún punto muerto resultaba mayor que cuando la interacción era entre el dispositivo y el participante.

Con el objetivo de mejorar la conversación y su entendimiento, pasar de realizar los tests con smart-speaker a un diseñador como interlocutor implicó, inconscientemente en los participantes, el pasar de ser observado realizando una acción susceptible de «fallar», a ser observado teniendo una conversación con alguien y aliviando la presión.

Si bien no podíamos obviar el impacto sobre el contexto y la diferenciación que como humanos hacemos entre hablar con otro humano y un dispositivo, realizar la interlocución con una persona nos permitió identificar y descartar claramente frases, palabras y matices clave en los diálogos que de otra manera no estábamos consiguiendo.

Reto #2 La distracción de las voces sintéticas

Las voces sintéticas pueden modificar el comportamiento de los interlocutores. La carencia, por ahora, de musicalidad o el exceso de la misma a la hora de mimetizar la voz humana puede causar rechazo, monotonía e incluso pérdida de atención.

Uno de los principales motivos por los que deshacernos del smart-speaker durante las sesiones de mago de Oz estuvo relacionado precisamente con la constante referencia de los participantes a la falta de naturalidad de las voces (en español). Sabíamos que eso ocurría de antemano, y no nos importó observar la reacción de los participantes como parte del aprendizaje hasta que interfirió con nuestro objetivo de evaluar la conversación y su contenido.

Reto #3 El potencial de la improvisación

En favor de seguir entendiendo la manera de responder y entender de los usuarios, observamos que contar con un interlocutor humano nos permitía continuar secciones de la conversación que de otra manera no podíamos. Así, momentos de confusión, error o incluso aspectos no contemplados en el diseño del prototipo podían extenderse sin cortes como en un ejercicio de improvisación para ver hasta dónde pretendía o esperaba llegar el usuario.

El reto siempre fue observar

En conclusión, el reto de evaluar prototipos de voz consiste en poder matizar la forma de aproximar las sesiones con usuarios hasta convertir este prototipo pasivo en un punto de partida abierto a la improvisación, en el que garantizar un marco de naturalidad al interlocutor principal, permitirle así hacer lo que ya sabe (conversar) e iterar.

Back to listNext Post
arrow

Titulo

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.