eek32

Page 10

El reconocimiento de la voz: Una ciencia en torno al procesamiento de señales y a la inteligencia artificial Eduardo Santos Mena 3dmena@gmail.com Carlos Alberto Olvera Olvera colvera@uaz.edu.mx José Ismael de la Rosa Vargas ismaelrv@ieee.org

A

artículos y reportajes

lo largo de la última década, los sistemas de reconocimiento de voz han venido cobrando fuerza y, en gran parte, se debe a la aceptación social de este tipo de tecnologías y a las nuevas capacidades de procesamiento en los dispositivos Smart tales como: celulares, tabletas, relojes, televisiones y todo lo que contenga un microprocesador. En estos días podemos encontrar el Reconocimiento Automático del Habla (RAH) en automóviles, plataformas de aprendizaje de idiomas, asistentes de edificio, etc. Otra de las áreas del reconocimiento de voz, tal vez menos común y explorada, es el Reconocimiento Automático del Locutor (RAL), que a su vez forma parte de las biometrías físicas del ser humano o métricas corpóreas únicas para cada individuo, como: la huella dactilar, la fisionomía del iris y la geometría facial, entre otras, y que ha tenido aplicaciones en sistemas de seguridad bancaria y en el control del acceso a áreas restringidas. En conjunto el RAL y el RAH ofrecen una propuesta interesante en el acceso y manipulación a sistemas, ya que un ordenador, o cualquier dispositivo con la capacidad computacional requerida, sería capaz de lograr un entendimiento a nivel digital de órdenes o consultas orales teniendo un “conocimiento” de quién genera las peticiones.

7

gura 1). Las ondas producidas en los órganos fonéticos vibran aproximadamente entre 100 y 200 veces por segundo para los hombres y entre 150 y 300 veces por segundo para las mujeres, provocando en ellas un tono más agudo. Esta vibración principal es llamada frecuencia fundamental, que a su vez crea más frecuencias por la resonancia de las cavidades bucal y nasal. La onda obtenida es moldeada por las gesticulaciones, el movimiento de la lengua y los labios, las turbulencias y demás; lo que genera, finalmente, la forma de un fonema o unidad mínima del habla. Una palabra, entonces es la conexión entre uno o varios fonemas. Es importante también conocer que el habla natural del ser humano tiene su información más relevante entre 100 y 3,800 Hz (por eso, la banda telefónica está entre los 400 y 4 kHz) y que el sistema auditivo es capaz de escuchar sonidos con una gama aproximada de ondas que oscilan entre 20 y 20,000 veces por segundo [1].

La voz es el resultado del proceso que le da forma a la onda de presión que proviene de nuestro estómago y pulmones y que debido a las peculiaridades físicas de los órganos (diferentes en todas las personas) que interactúan entre sí, cada persona tiene una voz única (FiFigura 1.- Aparato fonador.

La forma de onda que se propaga por el medio (moléculas de aire) contiene, intrínsecamente, la información necesaria en forma de patrones, con lo cual el sistema de audición puede descifrar el mensaje y reconocer al emisor, pero: ¿cómo lo hace y cómo hacemos para enseñar a un computador a hacerlo? La respuesta, más que en la forma de la onda, se encuentra en la intensidad de las múltiples frecuencias que componen el sonido. Debido a que cada persona genera diferentes cantidades de oscilaciones en su voz, estás tienden a crear una relación con el modo en el que vibran al producir un fonema. Entonces podemos decir que cada fonema tiene su propia “huella de frecuencia” que es modelada matemáticamente para su reconocimiento. Si analizamos el proceso de audición; las ondas mecánicas longitudinales son canalizadas al tímpano por los pliegues de la oreja, lo que genera un movimiento de respuesta en el tímpano que es una membrana parecida a las que usan los auriculares; los cuales funcionando de modo inverso. El tímpano genera un movimiento mecánico en el oído medio, que es transferido por los huesos llamados yunque, martillo y estribo hacia la cóclea y el movimiento en ésta produce una vibración en el flujo interno al que las células auditivas internas responden con la generación de pulsos eléctricos que son enviados al cerebro (Figura 2).


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.