eek32

Page 11

Yunque Martillo

Nervio Auditivo

Tímpano

Oreja

Cóqulea

Estribo

Figura 2.- Esquema del sistema auditivo

Toda vez que el cerebro procesa la información del sonido la almacena, para después compararla con los datos que tiene en su memoria y generar un criterio de selección. En la Figura 3 se muestran las dos primeras frecuencias F1 y F2 de los fonemas /a/, /e/, /i/, /o/, /u/, /y/, / ae/, /oe/ [2] y cada punto representa la localización F1 y F2 entre producciones e individuos. 4500

4500 3000 F2 / Hz

Amplitud (dB)

a e i o u y ae oe

4000

2500

1500

cer es válido según la tendencia estadística. En la lengua española existen discrepancias en la cantidad de fonemas que la conforman, aunque se pueden establecer 28. Por tanto podemos definir un sistema de reconocimiento basado en la comparación de una muestra con 28 modelos (un modelo para cada fonema y un modelo para cada individuo) y el fonema e individuo asociados a los dos modelos que arrojen la mayor probabilidad contra el audio a reconocer, serán elegidos como resultados. Para el RAH un diccionario define la palabra ortográficamente correcta (dependiendo el contexto). Si, por ejemplo, se reconocen los fonemas /o/ /l/ /a/, el diccionario transformaría este arreglo a “hola”. La eficiencia de los sistemas de reconocimiento de voz depende, en gran medida, de la cantidad de información con la que se representen los fonemas y de cuánta información produce cada individuo. Los sistemas comerciales como Google o Apple se han enfocado en optimizar el RAH por la dificultad que representa el acceder a la información necesaria (en cuestión de muestras para la creación de los modelos) de cada usuario. Por lo que el próximo paso en este tipo de tecnologías debería ser una buena optimización en RAL con una cantidad mínima de información.

Figura 4.- Comportamiento espectral de los fonemas /a/, /e/, /i/, /0/, /u/.

1000 200

Tiempo (seg) Frecuencia (Hz)

2000

500

pués, se calcula la energía que hay por rangos de frecuencia para cada sección, por ejemplo la energía que hay entre 0 y 1,000 Hz, entre 500 y 1,500 Hz, etcétera. Por último se realiza una compresión (agrupando la información energética seccional) para tener entre 12 y 13 elementos por cada sección de audio, creando así coeficientes que representan en pocos términos grandes cantidades de información de audio. En la Figura 4 se observa cómo es el comportamiento de las frecuencias conforme avanza el tiempo de los fonemas vocales, dónde las tonalidades rojas representan mayor intensidad; además se puede apreciar que las frecuencias con mayor amplitud se producen debajo de los 2 kHz.

400

600

800

1000

1200

1400

1600

F1 / Hz

Figura 3.- Primeras dos frecuencias predominantes de fonemas vocalizados.

Referencias [1].- Estrada C. O. (2016). Espectro de La Voz Humana y La Musica. Recuperado dehttps://es.scribd.com/doc/213944701/Espectro-de-La-Voz-Humanay-La-Musica. [2].- Rasilo, H., & Räsänen, O. (2017). An online model for vowel imitation learning. Speech Communication, 86, 1-23.

artículos y reportajes

Se lleva a cabo entonces una caracterización del audio (de su forma de onda) y el primer paso consiste en seccionar dicha señal en lapsos de entre 0.02 s a 0.045 s y extraer todas las frecuencias que componen cada sección. Des-

Con las características o coeficientes obtenidos, se crean modelos estadísticos basados en métodos numéricos. Los modelos son “entrenados” a partir de múltiples muestras de audios (audios que contienen las mismas palabras o fonemas a reconocer) con lo que se definen series de probabilidades; estos modelos describen el comportamiento que los coeficientes pueden tener basados en las probabilidades que los rigen. Por lo que se establecen lapsos de tiempo llamados “estados” y cada uno dicta qué comportamiento en la muestra a recono-

8


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.