Próxima generación de audífonos podría leer los labios a través de máscaras / Next generation of hearing aids could read lips through masks

GLASCOW, ESCOCIA — Un nuevo sistema capaz de leer los labios con notable precisión incluso cuando los hablantes llevan máscaras podría ayudar a crear una nueva generación de audífonos.

Un equipo internacional de ingenieros e informáticos ha desarrollado esta tecnología, que combina por primera vez la detección por radiofrecuencia con la inteligencia artificial para identificar los movimientos de los labios.

El sistema, cuando se integre con la tecnología de los audífonos convencionales, podría ayudar a solucionar el “efecto cóctel”, un defecto habitual de los audífonos tradicionales.

En la actualidad, los audífonos ayudan a las personas con deficiencias auditivas amplificando todos los sonidos ambientales que les rodean, lo que puede ser útil en muchos aspectos de la vida cotidiana.

Sin embargo, en situaciones ruidosas como las fiestas de cóctel, el amplio espectro de amplificación de los audífonos puede dificultar que los usuarios se concentren en sonidos específicos, como la conversación con una persona en particular.

Una posible solución al efecto cóctel es la fabricación de audífonos “inteligentes”, que combinan la amplificación de audio convencional con un segundo dispositivo que recoge datos adicionales para mejorar el rendimiento.

Aunque otros investigadores han tenido éxito en el uso de cámaras para ayudar a la lectura de labios, la recopilación de imágenes de vídeo de personas sin su consentimiento explícito plantea problemas de privacidad individual. Además, las cámaras no pueden leer los labios a través de las máscaras, un problema cotidiano para las personas que llevan la cara cubierta por motivos culturales o religiosos y un problema más amplio en la era del COVID-19.

En un nuevo artículo publicado en la revista Nature Communications, el equipo dirigido por la Universidad de Glasgow explica cómo se propuso aprovechar la tecnología de detección más avanzada para leer los labios. Su sistema preserva la intimidad al recoger únicamente datos de radiofrecuencia, sin acompañarlos de imágenes de vídeo. 

Para desarrollar el sistema, los investigadores pidieron a voluntarios de ambos sexos que repitieran los cinco sonidos vocálicos (A, E, I, O, U) primero sin máscara y luego con una máscara quirúrgica.

Mientras los voluntarios repetían los sonidos vocálicos, se les escaneaba la cara mediante señales de radiofrecuencia procedentes de un sensor de radar específico y de un transmisor Wi-Fi. También se les escaneó la cara mientras sus labios permanecían inmóviles.

A continuación, las 3.600 muestras de datos recogidas durante los escaneos se utilizaron para “enseñar” a los algoritmos de aprendizaje automático y aprendizaje profundo a reconocer los movimientos característicos de los labios y la boca asociados a cada sonido vocálico.

Dado que las señales de radiofrecuencia pueden atravesar fácilmente las máscaras de los voluntarios, los algoritmos también pudieron aprender a leer la formación de las vocales de los usuarios enmascarados.

El sistema demostró ser capaz de leer correctamente los labios de los voluntarios la mayor parte del tiempo. Los algoritmos de aprendizaje interpretaron correctamente los datos del Wi-Fi hasta un 95% de las veces para los labios sin máscara, y un 80% para los enmascarados. Por su parte, los datos del radar se interpretaron correctamente hasta en un 91% sin máscara y en un 83% con máscara.

El Dr. Qammer Abbasi, de la Escuela de Ingeniería James Watt de la Universidad de Glasgow, es el autor principal del artículo.

“Alrededor del cinco por ciento de la población mundial, unos 430 millones de personas, tiene algún tipo de discapacidad auditiva”, explica Abbasi. “Los audífonos han proporcionado beneficios transformadores a muchas personas con deficiencias auditivas. Una nueva generación de tecnología que recoge un amplio espectro de datos para aumentar y mejorar la amplificación del sonido podría ser otro gran paso para mejorar la calidad de vida de las personas con discapacidad auditiva”.

Next generation of hearing aids could read lips through masks

GLASCOW, SCOTLAND — A new system capable of reading lips with remarkable accuracy even when speakers are wearing face masks could help create a new generation of hearing aids.

An international team of engineers and computing scientists developed the technology, which pairs radio-frequency sensing with Artificial intelligence for the first time to identify lip movements.

The system, when integrated with conventional hearing aid technology, could help tackle the ‘cocktail party effect’, a common shortcoming of traditional hearing aids.

Currently, hearing aids assist hearing-impaired people by amplifying all ambient sounds around them, which can be helpful in many aspects of everyday life.

However, in noisy situations such as cocktail parties, hearing aids’ broad spectrum of amplification can make it difficult for users to focus on specific sounds, like conversation with a particular person.

One potential solution to the cocktail party effect is to make ‘smart’ hearing aids, which combine conventional audio amplification with a second device to collect additional data for improved performance.

While other researchers have had success in using cameras to aid with lip reading, collecting video footage of people without their explicit consent raises concerns for individual privacy. Cameras are also unable to read lips through masks, an everyday challenge for people who wear face coverings for cultural or religious purposes and a broader issue in the age of COVID-19.

In a new paper published in the journal Nature Communications, the University of Glasgow-led team outline how they set out to harness cutting-edge sensing technology to read lips. Their system preserves privacy by collecting only radio-frequency data, with no accompanying video footage. 

To develop the system, the researchers asked male and female volunteers to repeat the five vowel sounds (A, E, I, O, and U) first while unmasked and then while wearing a surgical mask.

As the volunteers repeated the vowel sounds, their faces were scanned using radio-frequency signals from both a dedicated radar sensor and a Wi-Fi transmitter. Their faces were also scanned while their lips remained still.

Then, the 3,600 samples of data collected during the scans was used to ‘teach’ machine learning and deep learning algorithms how to recognize the characteristic lip and mouth movements associated with each vowel sound.

Because the radio-frequency signals can easily pass through the volunteers’ masks, the algorithms could also learn to read masked users’ vowel formation.

The system proved to be capable of correctly reading the volunteers’ lips most of the time. Wi-Fi data was correctly interpreted by the learning algorithms up to 95% of the time for unmasked lips, and 80% for masked. Meanwhile, the radar data was interpreted correctly up to 91% without a mask, and 83% of the time with a mask.

Dr Qammer Abbasi, of the University of Glasgow’s James Watt School of Engineering, is the paper’s lead author.

“Around five percent of the world’s population – about 430 million people – have some kind of hearing impairment,” Abbasi said. “Hearing aids have provided transformative benefits for many hearing-impaired people. A new generation of technology which collects a wide spectrum of data to augment and enhance the amplification of sound could be another major step in improving hearing-impaired people’s quality of life.”