Diseño de un codificador decodificador de voz y audio bajo un esquema unificado Público Deposited

Las tecnologías para la codificación de señales acústicas han seguido dos paradigmas fundamentales, para las señales de voz se ha utilizado la codificación basada en la predicción lineal, mientras que para el audio (dominado por la música) se ha utilizado el enfoque basado en transformadas. Por cuestiones de practicidad, y con la finalidad de hacer eficiente la codificación de señales acústicas, se ha planteado la necesidad de un codificador unificado capaz de obtener las tasas de bit más bajas posibles para secuencias de audio con contenido mixto. Dicho codificador debe tener la capacidad de distinguir los segmentos de voz o audio y utilizar el esquema de codificación más adecuado. Uno de los principales retos en el diseño de un codificador unificado radica en la distinción entre las señales acústicas de entrada. Esta etapa es de muy alta importancia ya que determinar 'a el tipo de tecnología de codificación que se utilizar 'a. El trabajo que aquí se presenta plantea el desarrollo de un módulo de decisión cuyo objetivo es determinar si una señal de entrada al sistema tiene las características que la definen como una señal acústica de voz o de audio mediante una técnica innovadora basada en la transformada continua wavelet y la identificación de cordilleras. El presente proyecto consta de tres partes fundamentales: una investigación sobre las tecnologías actuales, el desarrollo del código y una fase de pruebas. En primer término, se realizó una investigación bibliográfica donde se consultaron las publicaciones relacionadas con el tema de clasificación de señales acústicas, reconocimiento de patrones y particularmente sobre los modelos de codificación unificada. Durante la etapa de desarrollo del código, se analizó el comportamiento de varios segmentos de señales acústicas, se incluyeron segmentos de habla, voz cantada a capella, instrumentos solos, conjuntos de instrumentos y sonidos ambientales como lluvia. La etapa de análisis consistió en observar el comportamiento de las señales acústicas al aplicar la transformada continua wavelet. El desarrollo del proyecto mostró que es posible distinguir entre las señales de voz y audio mediante el análisis asistido por la transformada continua wavelet y la detección de cordilleras asociadas a esta transformada. Al identificar características propias a cada tipo de señal acústica fue posible establecer un algoritmo de programación enfocado a distinguirlas de manera automática. Motivación La demanda por servicios de difusio'n en línea (streaming) tiene un incremento exponencial, esto es una consecuencia de la penetración de los dispositivos tecnológicos en la mayoría de la población. Los proveedores de servicios de Internet establecen cuotas altas y topes en la cantidad de información que cada usuario tiene derecho a descargar. El contenido multimedia representa la aplicación que más ancho de banda demanda. Derivado de las condiciones descritas, se establece como una necesidad fundamental hacer un uso eficiente del ancho de banda disponible. Las tecnologías enfocadas en la codificación multimedia, especialmente el audio, han desarrollado nuevas técnicas para reducir la tasa de bit. Originalmente la voz y el audio (generalmente representado por la música) han seguido dos paradigmas de codificación distintos, ambos con una alta eficiencia en la compresión de los datos. Ante la posibilidad de contar con dos tecnologías que permiten hacer el uso más eficiente del canal de comunicación, se plantea la necesidad de un codificador-decodificador capaz de adaptarse a la señal de entrada de una forma automática y así, garantizar siempre la tasa de bit más baja en contenidos mixtos, es decir, que a veces transmitan solo voz y en otras ocasiones solo audio. El paradigma que se plantea se le conoce como USAC (por sus siglas en ingles). Objetivo Desarrollar un algoritmo con base en la transformada wavelet capaz de clasificar las señales acústicas en dos tipos, voz y audio como parte de un codificador unificado. Justificación La eficiencia en el uso del ancho de banda disponible para la transmisión de tramas de audio constituye un objetivo primordial en la industria. Se puede utilizar un clasificador como un módulo de decisión previo a la codificación de señales acústicas. Si se conoce el tipo de señal a priori se puede elegir la tecnología de codificación más adecuada para la señal de entrada y así obtener una tasa de bit más baja.

The coding technologies for acoustic signal codification have followed two main paradigms, for voice signals the coding is based on linear prediction, for audio (mainly music) the coding techniques are based on transforms. For practical purposes, and aiming to increase the efficiency in the acoustic signal codification, there is a need for a unified coded capable to obtain the lowest possible bitrates for acoustic sequences with mixed content. This codec must have the ability to distinguish between voice or audio segments in order to define which coding scheme is the most suitable to use. One of the main challenges in the design of a unified codec lays in the distinction between the acoustic input signals. This stage has a very high importance because it will determine the type of coding technology that will be used. The research work, which is presented in this document, establishes the development of a decision module that determines whether an input acoustic signal has the characteristics that define it as voice or audio through an innovative technique based on the continuous wavelet transform and the identification of ridges. This project has three fundamental parts: an investigation regarding actual technologies, the code development and an evaluation phase. In first place, a bibliographic investigation was done; several publications were consulted with topics related to acoustic signal classification, pattern recognition and particularly the models for unified coding. During the code development stage, the behavior of several acoustic signals was analyzed, includes spoken voice, a capella singed voice, single instruments, sets of instruments and ambient sounds like rain. The analysis phase consisted in the observation of the behavior of the acoustic signals after applying the continuous wavelet transform. The development of the project showed that it is possible to distinguish between voice and audio signals aided by the continuous wavelet transform and the ridge detection associated to this transform. After identifying specific characteristics to each type of acoustic signal it was possible to program an algorithm focused on the automatic distinction. Motivation The demand for streaming services has shown an exponential grow as due to the high penetration rates of latest technology devices among population. Internet service provides establish high access tariffs and bit caps. Multimedia content represents the most bandwidth demanding application. A consequence of the described conditions, there's a basic need to make the most of the available bandwidth. The technologies focused in multimedia coding, especially audio, have developed new techniques for the bit rate reduction. Originally voice and audio (generally represented by music) have followed different coding paradigms, both with a high efficiency in the data compression. Since it is possible to use two technologies that allow to make the most efficient use of the communication channel, the design of a codec able to adapt automatically to the input signal is established, by this means, the lowest bit rate in mixed acoustic content is guaranteed. The stated paradigm is known as USAC (Unified Speech Audio Coding). Objective Develop an algorithm based on the wavelet transform able to classify the acoustic signals in two categories, voice and audio as part of a unified codec. Justification One of the main concerns in the telecom industry is the efficient use of the available bandwidth. A classifier can be used as a decision module previous to the coding of acoustic signals. If the type of signal is known a priori, the most appropriate coding technology can be chosen for the input signal and there for the lowest bit rate can be obtained.

Relaciones

En Conjunto Administrativo:

Descripciones

Nombre del atributoValores
Creador
Colaboradores
Tema
Editor
Idioma
Identificador
Palabra Clave
Año de publicación
  • 2013
Tipo de Recurso
Derechos
División académica
Línea académica
Licencia
Última modificación: 12/16/2025
Citaciones:

EndNote | Zotero | Mendeley

Elementos