Reconocimiento de géneros musicales aplicando técnicas de aprendizaje maquinal Público Deposited
La intersección entre la música, el aprendizaje maquinal y el procesamiento de señales ha permitido abordar un amplio rango de tareas como la identificación automática de canciones, instrumentos, género o artista. En particular, la identificación de géneros musicales es una técnica que utiliza la mayoría de los sistemas de reproducción de música digital para gestionar las canciones que los mecanismos guardan. Dado el gran número de piezas musicales que se pueden almacenar, la localización de una canción en particular puede llegar a ser complicada si el conjunto no se encuentra organizado adecuadamente; la generación de listas de reproducción requieren de sistemas que categoricen con un alto grado de confianza las canciones a elegir. Un Sistema de Reconocimiento de Géneros Musicales (SRGM) requiere de un conjunto de elementos musicales, una selección de características que describan los géneros musicales y un método de clasificación. La tarea se dificulta por la limitada disponibilidad de los datos (canciones) para su uso en investigación debido a aspectos de propiedad intelectual. En este proyecto se comparó el rendimiento de diferentes métodos de aprendizaje maquinal para definir un SRGM, incluyendo los basados en la teoría de la creencia profunda. Se utilizó la base de datos Million Songa Dataset (MSD) para la experimentación y se eligieron los géneros musicales a reconocer con base en criterios establecidos previamente. Se llevó a cabo un procesamiento para generar un vector de atributos de menor dimensión con las características más relevantes de la base de datos. Se analizaron y experimentaron diferentes técnicas de aprendizaje maquinal como K-medias, perceptrón, máquinas de soporte vectorial y redes de creencia profunda. Se encontró que las características timbre, pitches e intensidad fueron las que ofrecieron buenos resultados; en particular los primeros 4 coeficientes del timbre así como la aplicación de la media a los vectores de características mejoraron los resultados en la clasificación en varios casos. El sistema que mejores resultados ofreció fue el compuesto por una red de creencia profunda con los atributos de medias y varianzas normalizadas de pitch, timbre e intensidad sobre un conjunto de 6 géneros musicales como clases. El uso de atributos tomados de una base de datos descriptiva como lo es MSD permitió aprecia el aporte de las características acústicas al reconocimiento de géneros, lo cual da la idea de seguir con la experimentación en datos directos de audio.
Relaciones
En Conjunto Administrativo: |
---|
Descripciones
Nombre del atributo | Valores |
---|---|
Creador | |
Colaboradores | |
Tema | |
Editor | |
Idioma | |
Identificador | |
Palabra Clave | |
Año de publicación |
|
Tipo de Recurso | |
Derechos | |
División académica | |
Línea académica | |
Licencia |