Modelos lineales generalizados (GLM)

Modelos lineales generalizados

Los modelos lineales generalizados (GLM) tienen como objetivo describir el efecto de una o más variables explicativas (independientes) sobres una o más variables respuesta (dependientes).

1 o más variables explicativas -(efecto)-> 1 o más variables respuesta
(X0, …, Xd independientes) (Y0, …, Yr dependientes)

Las componentes del vector Y son variables independientes con distribución proveniente de una familia exponencial. Las variables X0, …, Xd originan un predictor lineal η dado por η =β0 + β1X1 +...+βdXd, o en forma matricial η = Aβ.

El predictor lineal y la variable dependiente están relacionados por una función de enlace o link g, siendo g monótona y diferenciable. Podemos escribir el modelo en cualquiera de sus 3 formas:

Familia exponencial: una variable aleatoria Y tiene distribución proveniente de una familia exponencial si su función de probabilidad puntual o de densidad es de la forma:

Si a(y)=y se dice que f está dada en su forma canónica. Ejemplos: Poisson, Normal y Binomial
Un GLM queda especificado mediante tres componentes:

Componente aleatoria: distribución de probabilidad de la variable respuesta Y que pertenece a la familia exponencial natural.
Componente sistemática: función lineal de las variables explicativas que se usa como predictor lineal.
Función de enlace o ligadura: función g que describe la relación funcional entre la componente sistemática y el valor esperado de la componente aleatoria.

Tipos de Modelos Lineales Generalizados para el Análisis Estadístico:

Comp. aleatorio Link Comp. sistemático Modelo

Normal Identidad Continuo Regresión

Normal Identidad Categórico Análisis de varianza

Normal Identidad Mixto Análisis de covarianza

Binomial Logit Mixto Regresión logística

Poisson Log Mixto Log-lineal

Multinomial Logit generalizado Mixto Respuesta multinomial

3. Comparación con modelos lineales:

Modelo lineal simple (ML)

El modelo de probabilidad lineal o modelo de regresión lineal, es de la forma:

 Y(x)=a+βx+epsilon(x)

donde E[Y|X=x]=p(x)=a+βx. Sin embargo, este modelo no puede explicar el comportamiento de las probabilidades de respuesta de una variable aleatoria binaria:

porque las probabilidades pertenecen al intervalo [0,1] y la función lineal toma valores en toda la recta real
porque no existe homocedasticidad: la varianza de la variable respuesta Var[Y|X=x]=p(x)(1-p(x)), es decir, no es constante para todos los valores de X (los estimadores mínimos cuatrados son ineficientes)
La variable Y no es Normal (no se pueden utilizar distribuciones muestrales de lso estimadores mínimos cuadrados para su inferencia)
la tasa de cambio es constante: variaciones iguales de la probabilidad de respuesta frente a variaciones iguales de la variable explicativa. Sin embargo, esto no se cumple para variables respuesta aleatorias binarias.

Modelos no-lineales

Los modelos no lineales son de la forma:

Y(x)=F(a+βx)+epsilon(x)

donde p(x)=F(a+βx), con F una función distribución estrictamente creciente y F-1(p(x))=a+βx. La relación entre x y p(x) es curvilínea, monótona y acotada entre [0,1].

Ejemplos de F: función de distribución logística para el Modelo de rergesión logística;(1), función de distribución normal para el modelo probit (2) y función de distribución Gumbel para el modelo de valores extremos (3).

Modelo de regresión logística (logit)

El modelo de regresión logística o función logística, es un modelo lineal generalizado en el cual la variable de respuesta Y es binaria, siendo p la probabilidad de que ocurra el evento en cuestión.
El modelo simple es de la forma:

p(x)=e(a+βx)/(1+e(a+βx))=1/(1+e-(a+βx))

o lo que es lo mismo, su transformación logit: ln(p(x)/(1-p(x)))=a+βx
La función de enlace o link adecuada es la función logit (ec.1), cuya función inversa es la función logística (ec.2). Si (ec.3), el modelo de regresión logística está dado por (ec.4), o lo que es lo mismo (ec.5).

Interpretación de los coeficientes:

La ventaja de la respuesta Y=1 para el calor observado de X=x viene dado por el cociente Odds=p(x)/(1-p(x)). El Odds es una medida de riesgo que nos indica cuanto más probable es que ocurra un evento respecto a que no ocurra β0 -> e(β0).

Entonces se define el riesgo relativo de respuesta Y=1 para dos valores distintos x1 y x2 de la variable explicativa X: R12=p(x1)/p(x2).

El cociente de ventajas (Odds ratio, OR) de respuesta Y=1 dados x1 y x2 distintos, es: OR=[p(x1)/(1-p(x1))]/[p(x2)/(1-p(x2))]. Este permite estimar el incremento de “riesgo” de la variable dependiente por unidad de variación de las variables independientes. El Odds ratio (OR) cuantifica la magnitud de la relación entre la respuesta y el cambio en una unidad del factor de interés.

Además, la relación de los cociente de entajas con el riesgo relativo, viene dada por:

OR=R12x(1-p(x2))/(1-p(x1))

Haciendo cuentas, tenemos que cuando X aumenta una unidad, el incremento de riesgo es OR=e(β1). Si X aumenta k unidades OR=e(kβ1).

Modelo probit
Modelo de valores extremos

Diseño experimental

Buscar este blog

Modelos lineales generalizados (GLM)

Comentarios

Publicar un comentario