ITELLIGENT

Inteligencia Artificial y electrodos para detectar «cómo se habla en silencio»

Post sobre:

Escrito por:

Martel, Jaime
03/12/2020

Investigadores de UC Berkeley han desarrollado un modelo de inteligencia artificial que detecta el «habla silenciosa«. Han sido los primeros en entrenar una Inteligencia Artificial (IA) utilizando palabras y sensores que se expresan silenciosamente y recopilando la actividad muscular. Detectan el «habla silenciosa» a través de electromiogramas (EMG). Primero, se colocan electrodos en la cara y la garganta de una persona. Luego, el modelo de IA se centra en la voz digital hablada de dicha persona. Finalmente, el modelo puede predecir palabras y generar un habla sintético.

Los investigadores creen que su método puede proporcionar una variedad de aplicaciones para las personas que no pueden realizar voces audibles (hablar) y pueden admitir la detección de voz por parte de asistentes de IA u otros dispositivos que responden a comandos de voz (generar voz).

[Tweet «Investigadores de UC Berkeley detectan «habla silenciosa» con electrodos e Inteligencia Artificial»]

El paper publicado por estos investigadores dice textualmente: «Digitally voicing silent speech has a wide array of potential applications» – la digitalización del habla silenciosa tiene grandes posibilidades de aplicación-. Por ejemplo, se puede usar para crear un dispositivo similar a un auricular Bluetooth que permita a las personas hablar por teléfono sin molestar a quienes las rodean. El dispositivo también se puede utilizar en lugares donde el entorno sea demasiado ruidoso, para capturar el habla audible o donde el silencio es importante. Otro ejemplo de captura de palabras del habla silenciosa, es la Inteligencia Artificial para la lectura de labios, puede ser un caso de uso para impulsar herramientas de vigilancia o brindar apoyo a personas sordas.

Para predecir el habla silenciosa, los investigadores de la Universidad de Berkeley (California), utilizan un método para convertir el objetivo de salida de audio de una grabación sonora a una grabación silenciosa de la misma transmisión. Luego, se utilizó el decodificador WaveNet para generar predicciones de audio y voz.

En comparación con la línea de base con datos de EMG de voz, este método puede reducir la tasa de error de palabras en la transcripción de libros entre un 64% y un 4%, y la tasa de error de la grabación de voz en un 95%. Para promover más trabajo en este campo, los investigadores exponen un conjunto de datos de casi 20 horas de datos EMG faciales.

El artículo modelo de David Gaddy y Dan Klein titulado «Digital Voice of Silent Speech» ganó el premio al mejor artículo en el evento Empirical Methods in Natural Language Processing (o EMNLP 2020) celebrado online el pasado mes de noviembre. La compañía Hugging Face ganó el premio al mejor documento de presentación del organizador por su trabajo en la librería de codigo abierto Transformers.  En otro trabajo de EMNLP, miembros del proyecto de código abierto Masakhane para traducir idiomas africanos han publicado un caso de estudio sobre traducción automática y los investigadores de China introdujeron un modelo de detección del sarcasmo en un conjunto de datos en Twitter con un alto rendimiento.

Otras entradas de esta categoría

¿Quieres aportar nueva información o hacernos un comentario?

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *