Modelos lineales generalizados
Los modelos lineales generalizados (GLM) tienen como objetivo describir el efecto de una o más variables explicativas (independientes) sobres una o más variables respuesta (dependientes).
(X0, …, Xd independientes) (Y0, …, Yr dependientes)
Las componentes del vector Y son variables independientes con distribución proveniente de una familia exponencial. Las variables X0, …, Xd originan un predictor lineal η dado por η =β0 + β1X1 +...+βdXd, o en forma matricial η = Aβ.
El predictor lineal y la variable dependiente están relacionados por una función de enlace o link g, siendo g monótona y diferenciable. Podemos escribir el modelo en cualquiera de sus 3 formas:
- Familia exponencial: una variable aleatoria Y tiene distribución proveniente de una familia exponencial si su función de probabilidad puntual o de densidad es de la forma:
Si a(y)=y se dice que f está dada en su forma canónica. Ejemplos: Poisson, Normal y Binomial
- Un GLM queda especificado mediante tres componentes:
- Componente aleatoria: distribución de probabilidad de la variable respuesta Y que pertenece a la familia exponencial natural.
- Componente sistemática: función lineal de las variables explicativas que se usa como predictor lineal.
- Función de enlace o ligadura: función g que describe la relación funcional entre la componente sistemática y el valor esperado de la componente aleatoria.
Tipos de Modelos Lineales Generalizados para el Análisis Estadístico:
Comp. aleatorio Link Comp. sistemático Modelo
Normal Identidad Continuo Regresión
Normal Identidad Categórico Análisis de varianza
Normal Identidad Mixto Análisis de covarianza
Binomial Logit Mixto Regresión logística
Poisson Log Mixto Log-lineal
Multinomial Logit generalizado Mixto Respuesta multinomial
3. Comparación con modelos lineales:
Modelo lineal simple (ML)
Modelos no-lineales
El modelo de probabilidad lineal o modelo de regresión lineal, es de la forma:
Y(x)=a+βx+epsilon(x)
donde E[Y|X=x]=p(x)=a+βx. Sin embargo, este modelo no puede explicar el comportamiento de las probabilidades de respuesta de una variable aleatoria binaria:
- porque las probabilidades pertenecen al intervalo [0,1] y la función lineal toma valores en toda la recta real
- porque no existe homocedasticidad: la varianza de la variable respuesta Var[Y|X=x]=p(x)(1-p(x)), es decir, no es constante para todos los valores de X (los estimadores mínimos cuatrados son ineficientes)
- La variable Y no es Normal (no se pueden utilizar distribuciones muestrales de lso estimadores mínimos cuadrados para su inferencia)
- la tasa de cambio es constante: variaciones iguales de la probabilidad de respuesta frente a variaciones iguales de la variable explicativa. Sin embargo, esto no se cumple para variables respuesta aleatorias binarias.
Modelos no-lineales
Los modelos no lineales son de la forma:
Ejemplos de F: función de distribución logística para el Modelo de rergesión logística;(1), función de distribución normal para el modelo probit (2) y función de distribución Gumbel para el modelo de valores extremos (3).
Y(x)=F(a+βx)+epsilon(x)
donde p(x)=F(a+βx), con F una función distribución estrictamente creciente y F-1(p(x))=a+βx. La relación entre x y p(x) es curvilínea, monótona y acotada entre [0,1].Ejemplos de F: función de distribución logística para el Modelo de rergesión logística;(1), función de distribución normal para el modelo probit (2) y función de distribución Gumbel para el modelo de valores extremos (3).
- Modelo de regresión logística (logit)
El modelo simple es de la forma:
p(x)=e(a+βx)/(1+e(a+βx))=1/(1+e-(a+βx))
La función de enlace o link adecuada es la función logit (ec.1), cuya función inversa es la función logística (ec.2). Si (ec.3), el modelo de regresión logística está dado por (ec.4), o lo que es lo mismo (ec.5).
Interpretación de los coeficientes:
La ventaja de la respuesta Y=1 para el calor observado de X=x viene dado por el cociente Odds=p(x)/(1-p(x)). El Odds es una medida de riesgo que nos indica cuanto más probable es que ocurra un evento respecto a que no ocurra β0 -> e(β0).
Entonces se define el riesgo relativo de respuesta Y=1 para dos valores distintos x1 y x2 de la variable explicativa X: R12=p(x1)/p(x2).
El cociente de ventajas (Odds ratio, OR) de respuesta Y=1 dados x1 y x2 distintos, es: OR=[p(x1)/(1-p(x1))]/[p(x2)/(1-p(x2))]. Este permite estimar el incremento de “riesgo” de la variable dependiente por unidad de variación de las variables independientes. El Odds ratio (OR) cuantifica la magnitud de la relación entre la respuesta y el cambio en una unidad del factor de interés.
Además, la relación de los cociente de entajas con el riesgo relativo, viene dada por:
OR=R12x(1-p(x2))/(1-p(x1))
Haciendo cuentas, tenemos que cuando X aumenta una unidad, el incremento de riesgo es OR=e(β1). Si X aumenta k unidades OR=e(kβ1).
- Modelo probit
- Modelo de valores extremos
Comentarios
Publicar un comentario