Avances en el reconocimiento de emociones basado en información paralingüística

 

Investigadores de la Universidad de Texas en Arlington han explorado recientemente el uso del aprendizaje automático para el reconocimiento de emociones basado únicamente en información paralingüística. Las paralingüísticas son aspectos de la comunicación hablada que no involucran palabras, como tono, volumen, entonación, etc.

Los recientes avances en el aprendizaje automático han llevado al desarrollo de herramientas que pueden reconocer estados emocionales mediante el análisis de imágenes, grabaciones de voz, electroencefalogramas o electrocardiogramas. Estas herramientas podrían tener varias aplicaciones interesantes, por ejemplo, podrían permitir interacciones más eficientes entre humanos y computadoras en las que una computadora reconoce y responde a las emociones de los usuarios humanos.

Se sabe que, en general, el habla lleva dos tipos distintos de información: información explícita o lingüística, que se refiere a patrones articulados por el hablante; e información implícita o paralingüística, que se refiere a la variación en la pronunciación de los patrones lingüísticos.

Al usar uno o ambos tipos de información, uno puede intentar clasificar un segmento de audio que consiste en el habla, en función de la emoción (es) que conlleva. Sin embargo, el reconocimiento de la emoción del habla parece ser una tarea muy difícil incluso para un humano, sin importar si él o ella es un experto en este campo (por ejemplo, un psicólogo).

Muchos enfoques existentes de reconocimiento de voz automático (ASR, por sus siglas en inglés) intentan reconocer las emociones del habla mediante el análisis de información tanto lingüística como paralingüística. Al centrarse en parte en las propiedades lingüísticas, estos modelos tienen varias desventajas, como una dependencia estricta del lenguaje. Por lo tanto, los investigadores decidieron centrarse en el reconocimiento de las emociones basándose únicamente en el análisis de la información paralingüística, con la esperanza de lograr el reconocimiento de las emociones en varios idiomas.

Los investigadores señalaron que su objetivo es analizar las emociones de los oradores basándose únicamente en información paralingüística. Para ello están trabajando comparando dos enfoques de aprendizaje automático, una red neuronal convolucional (CNN) y una máquina de vectores de soporte (SVM).

De esta manera han estado analizando conjuntos de datos contienen grabaciones emocionales del habla en diferentes idiomas: italiano, inglés y alemán. Los dos modelos de aprendizaje automático fueron entrenados para reconocer cuatro clases de emociones comunes: felicidad, tristeza, enojo y neutral.

Los investigadores llevaron a cabo tres experimentos para cada enfoque de aprendizaje automático, donde se utilizó un solo conjunto de datos para las pruebas y los dos restantes para la capacitación.

Si bien los resultados fueron prometedores, consideraron que aún no son óptimos, lo cual sugiere que todavía están muy lejos de lograr un reconocimiento de emociones multilingües consistentemente eficaz.

El estudio ha sido publicado en Avances en Medicina Experimental y Biología