Para esta entrada voy a hablar acerca de alguna aplicación en la industria usando redes neuronales, por lo que busque algun texto en el cual estuviera estrechamente ligado a mi proyecto que hemos estado desarrollando duerante este semestre, por lo que voy a hablar hacerca de
Speaker Recognition Using Neral Networks and Conventional Classifiers Liga, escrito por Kevin R. Farrell, Richard Mammone.
En este documento se hace una evaluación de diferentes clasificadores de renocimiento del hablante y proponen un clasificador llamado
modified neural tree network (MNTN), el cual es un clasificador que combina las propiedades de un
árbol de desición y la
retroalimentación de las redes neuronales, existe ya un estandar NTN, esta versión modificada fue hecha especificamente para el reconocimiento del hablante, haciendo una verificación y una identificación usando datos de 38 personas que hablan el mismo idioma y en la misma región.
Como sabemos en la identificación del hablante es determinar quien está hablando en donde un sistema común y a grandes rasgos tiene como entrada
la voz, en donde se hace un cierto preprocesamiento para extraer
características importantes para ahora clasificarlo en si la persona es o no la identificada, la versión en la que ellos se enfocan es un sistema en donde depende de cierto texto para saber
si esa persona es la que está hablando.
Basicamente lo que hace este
MNTN es comparar con el
metodo de clasificación del vecino más próximo, cuyo objetivo es estimar el valor de la función de densidad de probabilidad y tener por otra parte un
arbol estructurado según su vector de cuantificación, una
red multicapa y
arboles de decisión para evaluar la comparación.
Nos hablan de la importancia de poder extraer las características del habla para poder identificar a la persona, en donde ellos proponen una seleccion de una herramienta la cual consideran clave para la clasificación de la voz en cuestión de la persona este se llama
coeficiente Cepstral, estos se generan sacando la
transformada inversa de Fourier del logaritmo del espectro de señal, son utilizandos para aplicaciones de este tipo, estos los podemos calcular con una pequeña porcion de audio, se saca del estracto la transformada de Fourier, después se hace un
mapeo de la energía del espectro, se calcula el
logaritmo de esa energia para obtener nuestro resultado a clasificar.
La clasificación se hace referencia a varios formas que se han hecho a lo largo del tiempo, como la
distancia Euclidean, la
clasificación Mahalanobis, usando el discriminante
Bayesiano, pero la alternativa que ellos proponen es utilizar una red neuronal multicapa basada en entrenamento
no supervisado, proponen utilizar el modelo discreto de
Markov, la cual saca las probabilidades de cada transición entre estados, o la sumatoria de mezclas
gausianas, la cual uiliza información temporal para ir mejorando cada iteración.
Después el
MNTN como clasificador hace una medición en cada nodo del arbol junto con una etiqueta de la clase a la que pertenece, según la secuencia del vector de pesos, como
speaker y como
antispeaker, después se calcula el
ratio acumulado de los hablantes con dicha etiqueta y se calcula una sumatoria de los ratios de los que tienen etiqueta speaker, ese mismo procedimiento se hace con los de etiqueta antispeaker para despues hacer una
comparación de esa sumatoria y determinar si o no es el hablante.
Ellos realizar experimentos usando esta técnica y determinaron que de 20 personas a las cuales se les realizó el experimento para la validación del hablante, se obtuvo un
4% de error, proponen usar esta técnica ya que computacionalmente tiene ventaja al tener un arbol estructurado
reducir una busqueda completa de si es o no el hablante, porque ya tenemos dicha información de cierto modo acomodado para su facilidad de uso.
Referencias.
Speaker Recognition Using Neral Networks and Conventional Classifiers
Liga.