Cálculo eficiente de PCA con SVD y Lapack en un sistema de bases de datos relacional Público Deposited

La eficiencia y escalabilidad en la ejecución de métodos numéricos dentro de un Manejador de Bases de Datos (DBMS Database Management System) es una tarea compleja, ya que su arquitectura no esta diseñada para realizar cálculos numéricos intensos. Además el DBMS esta optimizado para evaluar consultas SQL (Structured Query Language) en tablas, no para realizar cálculos matriciales. Dada la dificultad de programar y optimizar diversos métodos numéricos, se propone integrar la biblioteca de métodos numéricos LAPACK (Linear Algebra Package) en un DBMS. La investigación se enfoca en resolver el Análisis de Componentes Principales (PCA Principal Component Analysis) para llevar a cabo la reducción de dimensionalidad (técnica de pre-procesamiento de datos) en grandes conjuntos de datos mediante su Descomposición en Valores Singulares (SVD Singular Value Decomposition), utilizando su respectiva matriz de correlación. Se comparan alternativas para resumir el conjunto de datos de entrada y cómo llamar de manera eficiente los métodos disponibles en la biblioteca LAPACK que resuelven SVD al aprovechar los mecanismos disponibles en un DBMS como: Procedimientos Almacenados (SP Stored Procedures), Funciones Definidas por el Usuario (UDFs User Defined Functions), Agregados Definidos por el Usuario (UDA User Defined Aggregates). Se muestra la factibilidad de resolver PCA al resumir el conjunto de datos con arreglos actualizados de manera incremental en una UDA, para después realizar SVD en memoria RAM llamando a la biblioteca LAPACK con una UDF. Además, comprobamos que mediante la explotación de una variante paralela de LAPACK (ScaLAPACK) es posible llevar a cabo un procesamiento paralelo en múltiples núcleos disponibles en la CPU. Como resultado se obtuvo un marco de trabajo independiente del DBMS que requiere una sola lectura del conjunto de datos, presenta una escalabilidad lineal, tiene posibilidad de ejecutarse en paralelo y funciona en cualquier DBMS siempre que soporte UDA.

Relaciones

En Conjunto Administrativo:

Descripciones

Nombre del atributoValores
Creador
Colaboradores
Tema
Editor
Idioma
Identificador
Palabra Clave
Año de publicación
  • 2013
Tipo de Recurso
Derechos
División académica
Línea académica
Licencia
Última modificación: 09/29/2022
Citaciones:

EndNote | Zotero | Mendeley

Elementos