martes, 13 de noviembre de 2012

Aplicación de red neuronal


Para esta entrada voy a hablar acerca de alguna aplicación en la industria usando redes neuronales, por lo que busque algun texto en el cual estuviera estrechamente ligado a mi proyecto que hemos estado desarrollando duerante este semestre, por lo que voy a hablar hacerca de Speaker Recognition Using Neral Networks and Conventional Classifiers Liga, escrito por Kevin R. Farrell, Richard Mammone.

En este documento se hace una evaluación de diferentes clasificadores de renocimiento del hablante y proponen un clasificador llamado modified neural tree network (MNTN), el cual es un clasificador que combina las propiedades de un árbol de desición y la retroalimentación de las redes neuronales, existe ya un estandar NTN, esta versión modificada fue hecha especificamente para el reconocimiento del hablante, haciendo una verificación y una identificación usando datos de 38 personas que hablan el mismo idioma y en la misma región.

Como sabemos en la identificación del hablante es determinar quien está hablando en donde un sistema común y a grandes rasgos tiene como entrada la voz, en donde se hace un cierto preprocesamiento para extraer características importantes para ahora clasificarlo en si la persona es o no la identificada, la versión en la que ellos se enfocan es un sistema en donde depende de cierto texto para saber si esa persona es la que está hablando.

Basicamente lo que hace este MNTN es comparar con el metodo de clasificación del vecino más próximo, cuyo objetivo es estimar el valor de la función de densidad de probabilidad y tener por otra parte un arbol estructurado según su vector de cuantificación, una red multicapa y arboles de decisión para evaluar la comparación.

Nos hablan de la importancia de poder extraer las características del habla para poder identificar a la persona, en donde ellos proponen una seleccion de una herramienta la cual consideran clave para la clasificación de la voz en cuestión de la persona este se llama coeficiente Cepstral, estos se generan sacando la transformada inversa de Fourier del logaritmo del espectro de señal, son utilizandos para aplicaciones de este tipo, estos los podemos calcular con una pequeña porcion de audio, se saca del estracto la transformada de Fourier, después se hace un mapeo de la energía del espectro, se calcula el logaritmo de esa energia para obtener nuestro resultado a clasificar.

La clasificación se hace referencia a varios formas que se han hecho a lo largo del tiempo, como la distancia Euclidean, la clasificación Mahalanobis, usando el discriminante Bayesiano, pero la alternativa que ellos proponen es utilizar una red neuronal multicapa basada en entrenamento no supervisado, proponen utilizar el modelo discreto de Markov, la cual saca las probabilidades de cada transición entre estados, o la sumatoria de mezclas gausianas, la cual uiliza información temporal para ir mejorando cada iteración.

Después el MNTN como clasificador hace una medición en cada nodo del arbol junto con una etiqueta de la clase a la que pertenece, según la secuencia del vector de pesos, como speaker y como antispeaker, después se calcula el ratio acumulado de los hablantes con dicha etiqueta y se calcula una sumatoria de los ratios de los que tienen etiqueta speaker, ese mismo procedimiento se hace con los de etiqueta antispeaker para despues hacer una comparación de esa sumatoria y determinar si o no es el hablante.

Ellos realizar experimentos usando esta técnica y determinaron que de 20 personas a las cuales se les realizó el experimento para la validación del hablante, se obtuvo un 4% de error, proponen usar esta técnica ya que computacionalmente tiene ventaja al tener un arbol estructurado reducir una busqueda completa de si es o no el hablante, porque ya tenemos dicha información de cierto modo acomodado para su facilidad de uso.

Referencias.
Speaker Recognition Using Neral Networks and Conventional Classifiers Liga.

1 comentario: