Modelado de distribuciones conjuntas para modelos lineales generalizados con datos faltantes Público Deposited

La falta de datos en las variables explicativas de los modelos lineales generalizados es un problema común que se ha estudiado por muchos años y se han propuesto diversos métodos para enfrentarlo. Entre estos métodos, un procedimiento basado en modelos como lo es máxima verosimilitud representa una metodología de estimación de parámetros sólida y flexible, ya que la función de verosimilitud está disponible en forma computable. Sin embargo, para lograr esto último, es necesario modelar adecuadamente las distribuciones conjuntas tanto de las variables explicativas parcialmente observadas, como de las correspondientes variables indicadoras de pérdida de datos. En este trabajo, se propone una nueva metodología basada en modelos para el análisis de regresión de modelos lineales generalizados cuando las variables explicativas parcialmente observadas son categóricas. La propuesta consiste en usar construcciones con cópulas pareadas bivariadas como una herramienta versátil para facilitar el modelado de distribuciones conjuntas multivariadas de alta dimensión. De esta manera, los parámetros del modelo pueden ser estimados maximizando la función log-verosimilitud mediante el uso del algoritmo EM vía ponderaciones. Para la estimación de los errores estándares se usa el método de matriz de información observada. Con el fin de comparar el desempeño de la metodología propuesta con otros enfoques ya bien establecidos, incluyendo análisis con casos completos e imputación múltiple, se llevaron a cabo varios experimentos de simulación bajo diferentes escenarios de pérdida de datos, tanto aleatoria como no aleatoria. Adicionalmente, se realizaron simulaciones con variables respuesta tipo Binomial, Poisson y Normal, utilizando para ello diversas estructuras de dependencia entre las variables explicativas con datos faltantes y entre las variables indicadoras. Además, para ilustrar la viabilidad práctica de los métodos planteados, se realizó el modelado de datos del ensayo clínico E1684 sobre un melanoma en fase III, y esto se comparó con lo obtenido mediante imputación múltiple y con el software LogXact. También se efectuaron los correspondientes análisis de sensibilidad y diagnósticos para evaluar las suposiciones hechas acerca del modelo. Los resultados de las simulaciones y de la aplicación muestran que la metodología aquí propuesta es robusta y flexible, representando una alternativa competitiva a las técnicas tradicionales. Finalmente, se plantean como temas de investigación a futuro, tanto la mejora computacional del método como la inclusión de variables explicativas continuas con datos faltantes.

Relaciones

En Conjunto Administrativo:

Descripciones

Nombre del atributoValores
Creador
Colaboradores
Tema
Editor
Idioma
Identificador
Palabra Clave
Año de publicación
  • 2018
Tipo de Recurso
Derechos
División académica
Línea académica
Licencia
Última modificación: 01/18/2023
Citaciones:

EndNote | Zotero | Mendeley

Elementos