Evaluación de la capacidad discriminativa de las máquinas restringidas de Boltzmann Öffentlichkeit Deposited

Durante la primera década del 2000, el reconocimiento de dígitos escritos a mano fue una de las primeras aplicaciones más notables utilizando redes neuronales profundas. Posteriormente, a inicios de la década de 2010, estas mismas redes mostraron resultados prometedores en múltiples áreas de aplicación, incluyendo el reconocimiento de emociones en el habla. En este trabajo se hace énfasis en la aplicación de las redes neuronales a problemas de clasificación que incorporan la señal de habla debido a su importancia en el proceso de comunicación entre personas. Este tipo de señal se caracteriza por su alta variabilidad temporal, pues su producción queda condicionada por la morfología y movimiento de los elementos en la cavidad oral y el rostro, y puede verse influenciada por el acento regional, la condición social o el estilo personal, entre otros. La expresión de emociones es otro de los elementos que enriquecen la comunicación humana, incluso se ha comprobado que las palabras por sí mismas no aportan el significado completo del mensaje para un escucha. En este sentido, el análisis de los componentes paralingüísticos como la prosodia, la calidad de la voz, el ritmo e incluso el estado emocional con el cual se expresa un mensaje son muy importantes y deben tenerse en cuenta en sistemas que deben interactuar con las personas. Consecuentemente, en esta interacción, el sistema debe ser capaz de interpretar esta información complementaria a las palabras, por ejemplo realizando la detección clasificación de las emociones del hablante. Gracias a su versatilidad y a los resultados mostrados, las máquinas restringidas de Boltzmann han sido empleadas como principal bloque de construcción en el aprendizaje profundo, provocando que el interés de diversos grupos de investigación se viera dirigido hacia su perfeccionamiento. Con esto en mente, en esta Tesis se abordan las redes neuronales, en particular, de las máquinas restringidas de Boltzmann en un esquema multi--capa con el objetivo de mejorar su arquitectura mediante la evaluación y poda de aquellas neuronas menos útiles para el proceso de clasificación. Este tema ha cobrado mucha importancia en épocas recientes debido al surgimiento de un gran número de algoritmos de aprendizaje profundo para diversas aplicaciones, con especial atención en aquellas que funcionan en dispositivos móviles pues existe la necesidad de mejorar estas arquitecturas profundas mediante la reducción de variables, lo que permitirá aminorar los costos de implementación y de procesamiento. En el presente trabajo se presenta una metodología que permite mejorar los resultados obtenidos mediante el aprendizaje profundo y las máquinas restringidas de Boltzmann en un esquema de clasificación. En una primera etapa, se evaluaron múltiples arquitecturas en tareas de clasificación y luego se desarrolló un método para evaluar la importancia relativa de cada neurona de estas redes. Los resultados muestran que utilizar las máquinas restringidas de Boltzmann en una arquitectura profunda mejora las tasas de error, y además, se ha descubierto que podar aquellas neuronas que contribuyen menos a la solución de la tarea de clasificación, produce redes con arquitecturas menos densas sin sacrificar la capacidad de generalización y, en la mayoría de los casos, mejora las tasas de error obtenidas con las técnicas tradicionales. Cada una de estas propuestas de evaluación y poda precisaron la codificación de simulaciones que permitieran determinar su eficacia. Esta experimentación fue dividida en cuatro partes, la primera de ellas investigó la pertinencia de utilizar el aprendizaje profundo para el reconocimiento de emociones en la voz, esta tarea se acotó a dos emociones. La segunda también abordó el reconocimiento de emociones en la voz, aunque en esta ocasión investigando siete emociones. En la tercera parte se investigó la poda de las neuronas evaluadas como menos discriminantes empleando dos idiomas y dos emociones, la evaluación se llevó a cabo utilizando cinco medidas de disimilitud. En última instancia se investigó el uso de las técnicas propuestas de poda para las máquinas restringidas de Boltzmann, en otras bases de datos no relacionadas con la señal del habla, para ésto se utilizaron cinco bases de datos y hasta siete clases. En todos los casos se obtuvieron resultados favorables con propuestas innovadoras.

Beziehungen

Im Admin-Set:

Beschreibungen

AttributnameWerte
Creador
Mitwirkende
Tema
Editor
Idioma
Identificador
Stichwort
Año de publicación
  • 2018
Tipo de Recurso
Derechos
División académica
Línea académica
Licencia
Zuletzt geändert: 02/02/2023
Zitate:

EndNote | Zotero | Mendeley

Artikel