Con la llegada de asistentes como Siri, Alexa o Google Assistant, la tecnología de reconocimiento de voz se ha extendido a, prácticamente, todos los aspectos de nuestro día a día y cada vez está presente en los más diversos aparatos. Esta presente no sólo en los teléfonos móviles, sino en altavoces, televisores, coches y un etcétera de productos “inteligentes” que va creciendo más y más cada día.
Pese a su actualidad, no es precisamente una tecnología “moderna”, ya que lleva presente en el mercado desde 1990, con los primeros sistemas comerciales y programas de dictado. Ahora mismo, hasta una simple aplicación como Google Keep, nos transcribe todo lo que decimos para guardarlo en notas, función que en ámbitos más profesionales como puede ser el de servicios de telefonía IP, se usa para guardar las conversaciones con los clientes en archivos de texto para poder consultarlas y catalogarlas de manera más sencilla y rápida.
¿Cómo funciona un sistema de reconocimiento de voz?
En esencia, un sistema de Reconocimiento del Habla, como también se denomina, es una tecnología que es capaz de entender qué es lo que está diciendo una persona, y actuar en consecuencia, ya sea ejecutando una orden o transformando ese audio en texto para su posterior procesamiento. Esto, que parece tan sencillo, implica múltiples disciplinas como la fisiología, la acústica, la lingüística, el procesamiento de señales o la inteligencia artificial.
Gracias al avance de la tecnología cloud, hemos pasado de sistemas basados en un aprendizaje deductivo a uno inductivo, en el que es la propia máquina la que va obteniendo los conocimientos necesarios a partir de ejemplos reales. Es decir, a base de escuchar y escuchar a gente, crear modelos y, echando mano de las redes neuronales artificiales, llega a comprender los siempre complicados giros léxicos y gramaticales de muchos idiomas, especialmente por sus acentos y dialectos.
Técnicamente, un software capaz de reconocer el habla está formado por varias capas. El primero de ellos es la capa acústica, que distingue el origen del sonido para determinar su grado de distorsión, luego cuenta con la capa lingüística, el conocimiento que se le programa y todo el que va acumulando con el aprendizaje. También está la capa semántica, destinada a entender la forma de hablar de la gente (cómo se construyen las frases, variaciones dependiendo de geografía, cultura, edad, etc.); y finalmente la capa estadística que recoge las frases, las transcribe a texto y, a partir de ahí, puede realizar búsquedas en bases de datos para realizar acciones o guardarlo.
¿Estamos seguros con tanto “aparato” escuchando?
Estos sistemas aprenden a base de escuchar, pero sólo a partir de cierto momento. Antes puede estar “oyendo” pero no registra nada ya que lo único que espera es la activación tras una locución o registrar ese comando que lo activa. Hasta entonces, no necesita estar conectado a su “cerebro”, la red neuronal que es la que interpreta ese audio, por lo que no guarda ni realiza ningún tipo de operación.
Una vez que se ha generado el documento con la transcripción a texto de un mensaje, eso no solo debe estar protegido por un cifrado que lo haga inviolable, sino que al almacenarlo, las empresas tienen las misma obligaciones en cuanto a la protección de datos que si les enviamos un correo electrónico. El audio de esa conversación, a no ser que se registre en un archivo y se almacene por otras razones, para el aprendizaje del sistema ya no vale para nada dado que no aporta nueva información, por lo que se elimina dado que el espacio es limitado.
¿Para qué se han utilizado y por qué?
Ya hemos adelantado al comienzo algunos usos, pero dos fueron de las primeras industrias en acoger con ganas esta tecnología, aunque por motivos diferentes. La primera fue la industria de la automoción. Los fabricantes de coches utilizan los sistemas de reconocimiento de voz para aumentar la seguridad al volante – incluso antes de la aparición de la telefonía móvil – para que el conductor no tuviera que quitar las manos del volante para subir el volumen de la radio o bajar unos grados la calefacción.
La siguiente industria que ha aprovechado desde hace décadas es la de los servicios de telefonía. Esto ha permitido la aparición de “recepcionistas” virtuales que tras una locución esperaban pacientemente a la petición del usuario para desviar la llamada hacia el destino correspondiente. Es cierto que la precisión en los años 90 o incluso los primeros 2000 no era del todo satisfactoria. A quien no le ha pasado el tener que repetir una y otra vez una frase a un tozudo sistema que no era capaz de entendernos hasta que, por cansancio, lográbamos hablar con un operador.
Eso es algo que, afortunadamente, está ya en el pasado. El paso a la telefonía IP y la posibilidad de conectar los servicios de comunicaciones a sistemas en la nube y redes neuronales posibilita no solo que la comprensión de estos sistemas sea ya casi perfecta, sino ampliar los servicios que se pueden obtener con ellos más allá de un menú de voz.
Actualmente, la precisión que se obtiene al reconocer lo que dice el usuario permite automatizar procesos que luego quedan registrados en documentos como contratos o hacer compras sólo utilizando la voz. En los últimos tiempos, uno de los usos más interesantes, y que ahorra toneladas de tiempo, es la posibilidad de, a partir de grabaciones de llamadas, tener todas ellas transcritas y almacenadas en bases de datos consultables sin necesidad de tener que escuchar todo el registro. Tanto a nivel legal como operativo aporta una agilidad y una capacidad de respuesta a las empresas en su atención al cliente que no sería posible sin el avance de esta tecnología tan interesante.
Por último, cabe destacar que el último destino de esta tecnología es el hogar y la domótica. Algo que parecía de películas de ciencia ficción es, hoy, una realidad. Podemos encender las luces de la casa, cambiar la temperatura del aire acondicionado, pedirle a la tele que nos ponga una película o hacer la compra sólo “pidiéndolo”. Y esto, para el común de los mortales es un simple capricho, pero para personas con movilidad reducida ha supuesto toda una revolución y una mejora sustancial de su calidad de vida.