domingo, 13 de diciembre de 2009

Modelos de regresión logística o logit

Modelos logit
con variables explicativas cuantitativas observadas sin error

 


 I.            Formulación del modelo


·         Modelo de regresión logística simple
Consideraremos el caso de una única variable explicativa cuantitativa X para una variable aleatoria binaria Y. Utilizaremos un modelo lineal para el logaritmo de la ventaja de respuesta Y=1 en cada valor observado de x de la variable explicativa:

Ln[p(x)/(1-p(x))] = alfa + beta*x

Que equivalentemente se puede expresar de la siguiente forma en términos de probabilidad de respuesta 1 en x:

p(x)= e(alfa+beta*x)/(1+ e(alfa+beta*x))

curva de respuesta que es estrictamente creciente si beta>0 y estrictamente decreciente para beta <0.

Interpretación de sus parámetros
a.       Para beta=0,
          i.      tenemos p(x)= e(alfa)/(1+ e(alfa)), es decir, la variable Y es independiente de X.
          ii.      alfa es el valor común del logaritmo de las ventajas de respuesta Y=1 frente a la respuesta Y=0
b.      alfa se puede interpretar como el valor del logaritmo de la ventaja de respuesta 1 para un individuo con X=0
c.       por cada unidad de incremento en X, el logit de respuesta 1 aumenta aditivamente beta unidades. La ventaja de la respuesta 1 en cada x observado es: p(x)/(1-p(x)) = e(alfa+beta*x) = e(alfa)*(e(beta)^x), así la ventaja de la respuesta 1 aumenta multiplicativamente e(beta) por cada unidad de incremento en X.
d.      Cociente de ventajas de respuesta 1 para dos valores diferentes x1 y x2 de X: theta(x1,x2)= [ p(x1)/(1+p(x1)) ]/[ p(x2)/(1+p(x2)) ] = e(beta*(x1-x2)), que pertenece a (0, infinito) y:
          i.       theta(x1,x2)= 1 sii p(x1)=p(x2).
        ii.      theta(x1,x2)> 1 sii p(x1)>p(x2), la ventaja de respuesta 1 es e(beta*(x1-x2)) veces mayor para X=x1 que para X=x2.
        iii.      theta(x1,x2)< 1 sii p(x1)la ventaja de respuesta 1 es 1/e(beta*(x1-x2)) veces mayor para X=x2 que para X=x1.

Y para dos valores de X que se diferencian en una unidad: theta(x+1,x)= theta(deltaX=1) = e(beta)


·         Modelo de regresión logística múltiple
Si consideramos el caso de R variables explicativas cuantitaticas no aleatorias (X1, X2, …, XR), para cada combinación de valores observados X1=x1, X2=x2, …, XR=xR de las variables explicativas, la variable respuesta Y tiene distribución de Bernoulli, con p(x1,…,xR) = P[Y=1|X1=x1,…,XR=xR]=E[Y|X1=x1,…,XR=xR]. Entonces la fórmula del modelo es la siguiente:
Y(x1,…,xR)=p(x1,…,xR)+épsilon(x1,…,xR) 
donde épsilon(x1,…,xR) son errores aleatorios que se consideran centrados e independientes. Así, tenemos:
p(x1,…,xR)= e(alfa+sum(beta_r*x_r))/(1+exp(alfa+sum(beta_r*x_r)))

Si llamamos alfa=beta_0, X=(X0,X1,…,XR)` y x=(x0,x1,…,xR)`, beta=(beta0,beta1,…,betaR)’  con  X0=1, tenemos:
p(x)= e(sum(beta_r*x_r))/(1+e(sem(beta_r*x_r))) = e(beta’*x)/(1+e(beta’*x))
o equivalentemente ln[p(x)/(1-p(x))] = sum(beta_r*x_r)

Interpretación de sus parámetros

a.       Para beta_r=0, para todo r=1,…,R,
          i.      tenemos p(x)=e(beta_0)/(1+e(beta_0)), Y es independiente de las variables explicativas.
         ii.      beta_0 es el valor común del logaritmo de las ventajas de respuesta =1 frente a Y=0.
b.      Cociente de ventajas de respuesta Y=1 para dos combinaciones diferentes de valores de las variables explicativas x1=(1,x11,…,x1R)’ y x2=(1,x21,…,x2R)’ es: theta(x1,x2) = [p(x1)/(1-p(x1))]/[p(x2)/(1-p(x2))] = e(sum(beta_R(x1r-x2r)))

Y para dos valores de X que se diferencian en una unidad: theta(x+1,x)=theta(deltaX1=1,…,deltaXR=1)=e(sum(beta_r))=prod(e(beta_R)),aal aumentar una unidad de una variable y controlar las demás, la ventaja de respuesta 1 queda multiplicada por la exponencial del coeficiente de la variable incrementada.
          i.      Exponencial de un parámetro>1, entonces la probabilidad de respuesta =1 aumenta cuando aumenta la variable correspondiente y se controlan las demás
           ii.      Exponencial de un parámetro<1, se cumple la relación inversa.
   

·         Modelos con interacción
La posibilidad de interacción entre las variables explicativas de un modelo de regresión logística múltiples implica que lso cocientes de ventajas que miden la asociación entre la variable de respuesta y cada variable explicativa ya no son independientes del valor fijo del resto de variables explicativas controladas. Esto significa que los modelos anteriormente analizados son modelo sin interacción porque el grado de asociación entre la variable de respuesta y cada una de las variables explicativas es el miso en todas las combinaciones de niveles de las otras variables independientes.

Existen interacciones de distintos órdenes:
         i.            Orden uno (entre dos variables explicativas): la asociación entre la variable de respuesta y una variable, depende de los valores de una tercera que interacciona con ésta última. 
         ii.            Orden dos: involucran a tres variables

La interacción entre dos variables cuantitativas se incluye en el modelo de regresión logística múltiple como producto de ambas variables.
Ln[p(x)/(1-p(x))] = sum(beta_r*x_r) + sum(sum(beta_rs*x_r*x_s))

 Interpretación de sus parámetros
a.       El término de interacción entre dos variables cuantitativas Xr y Xs es de la forma beta_rs*Xr*Xs.
b.      El Cociente de ventajas de respuesta =1 cuando se incrementa en una unidad una variable y se controlan fijas las demás, depende del valor de las variables controladas: theta(deltaXl=1|x1,…,xl-1,xl+1,…,xR) = e(beta_l+sum(beta_lr*x_r)), para todo l=1,…,R.

 Nomenclatura:
  • Variable de confusión: está asociada con el factor de riesgo de modo que la asociación marginal entre la variable de respuesta y el factor de riesgo cambia significativamente al incluirla en el análisis estadístico. Tienen que ser considerados en el modelo aunque pueden no interaccionar con el factor de riesgo.
  • Variable modificadora: modifica el efecto cuando la asociación entre la variable de respuesta y el factor de riesgo cambia en función de sus valores. Es una variable que interacciona con el factor de riesgo.

II.            Ajuste
Disponemos de N observaciones (tamaño muestral) de N variables de Bernoulli independientes (v.a. respuesta Y), a cada una de las cuales corresponde una determinada combinación de niveles (x0,x1,…xR) de las R variables explicativas X1,…,XR.

Notación:
  • xq=(xq0,xq1,…,xqR)’  (q=1,…,Q) la q-ésima ciombinación de valores de las R variables explicativas en la muestra.
  • nq es el número de observaciones muestrales (con X=xq), con sum(nq)=N.
  • yq es el número de respuestas Y=1, e Yq es el número de respuestas Y=1 en cada xq.
  • Q es la muestra de v.a. independientes Yq con distribuciones B(nq,pq), donde pq=P[Y=1|X=xq] y E[Yq]=nq*pq.
Tenemos dos casos:
         i.  Q=N: cada individuo muestral tiene una combinación diferente de niveles de las R variables explicativas (1 observacxión de la v.a. respuesta Y en cada combinación).
       ii.    Q1 observación de la v.a. respuesta Y en cada combinación).

Entonces la fórmula del modelo es:
pq= sum(beta_r*xqr)) / (1+e(sum(beta_r*xqr)))
o de modo equivalente: Lq=ln[pq/(1-pq)] = sum(beta_R*xqr)
(en forma matricial: L=X*beta)


III.            Estimación por máxima verosimilitud
Los estimadores de máxima verosimilitud (MV) son los valores de los parámetros que dan máxima probabilidad (verosimilitud) a los datos observados. Para hallarlos hay que maximizar la función de verosimilitud de los datos respecto de los parámetros del modelo logit:
         i.            Estimación MV iterativa con Newton-Raphson
        ii.            Estimación por mínimos cuadrados ponderados
       iii.            Propiedades de los estimadores MV

 IV.            Inferencia en regresión logística: para extrapolar los resultados muestrales a la población
        a.       Contrastes de bondad de ajuste
            b.      Contrastes sobre los parámetros del modelo
            c.       Intervalos de confianza
  
V.            Validación
            a.       Residuos
            b.      Medidas de influencia
            c.       Métodos gráficos

VI.            Selección del modelo más apropiado
Read more...

sábado, 12 de diciembre de 2009

Curvas y superficies de respuesta

Ajuste de curvas y superficies de respuesta

    Los diseños factoriales son muy útiles para el tamizado de factores, es decir, para identificar los factores más importantes que afectan el desempeño de un proceso (o caracterización del proceso, Montgomery, 2004). Una vez que se ha identificado el sunconjunto adecuado de variables del proceso, generalmente el paso siguiente es la optimización del proceso, que implica encontrar el conjunto de condiciones de operación de las variables del proceso que producen el mejor desempeño del mismo.
   Puede resultar útil ajustar una curva de respuesta a los niveles de un factor cuantitativo para que el investigador cuente con una ecuación que relacione la respuesta con el factor. Esta ecuación podría utilizarse para hacer interpolaciones, es decir, para predecir la respuesta en niveles intermedios entre los factores, respecto de los que se utilizaron realmente en el experimento.
   Cuando al menos dos de los factores son cuantitativos, puede ajustarse una superficie de respuesta para predecir   con varias combinaciones de los factores de diseño. En este sentido cabe destacar la metodología de superficies de respuesta (RSM), como el enfoque de optimización más exitoso y generalizado. En general, se usan métodos de regresión lineal para ajustar estos modelos a los datos experimentales. Además, los efectos de los factores cuantitativos pueden representarse con efectos polinomiales con un solo grado de libertad. De manera similar, es posible hacer la partición de las interacciones de factores cuantitativos en componentes de interacción con un solo grado de libertad. 

   El enfoque usual es utilizar el diseño de experimentos para determinar cuáles variables están influenciando la respuesta de interés.  Una vez que dichas variables son identificadas, se obtiene un estimado aproximado de la superficie de respuesta por medio de modelos factoriales especiales.  Esta superficie de respuesta se usa como guía para variar gradualmente los factores controlables que afectan la respuesta de manera tal que se mejore el valor de la respuesta.  Una vez que el cambio de los factores controlables no origine una mejora predecible en la variable de la respuesta, se puede aplicar un método de experimentación más sofisticado para encontrar la superficie de respuesta operativa final del proceso de interés. 
   Supongamos que un investigador desea encontrar los niveles de la variable  x1 y de  x2 que maximicen el rendimiento Y de un proceso. El rendimiento del proceso es una función de los niveles de la variable x1 y x2: Y=f(x1,x2)+epsilon.
   Donde epsilon representa el ruido o error observado en la respuesta Y. Si el valor de la respuesta se denota por E(Y)=f(x1,x2) entonces la superficie representada por  E(Y)=f(x1,x2)se llama superficie de respuesta. Para ayudar a visualizar la forma de una superficie de respuesta, con frecuencia se trazan los contornos de la superficie de respuesta (líneas de respuesta constante en el plano x1,x2). Cada contorno corresponde a una altura particular de la superficie de respuesta. La gráfica de contorno es útil para estudiar los niveles de  x1,x2 que producen cambios en la forma o altura de la superficie de respuesta.
   En la mayoría de los problemas de RMS no se conoce la forma de la relación entre la respuesta y las variables independientes. Por tanto el primer paso es encontrar una aproximación adecuada de la verdadera relación funcional entre   y las variables indepdendientes, por lo general se emplea un polinomio de orden inferior en alguna región de las variables independientes. Si una función de las variables independientes modela adecuadamente la respuesta, entonces a función de aproximación es el modelo lineal de primer orden:
 Y=beta0+beta1*x1+...+betaK*xK+epsilon
   Si hay curvatura en el sistema, entonces se debe utilizar un polinomio de orden superior, tal como el modelo lineal de segundo orden:        
  Y=beta0+sum(beta_j*x_j)+...+sum(beta_ij*x_ij)+epsilon
   El modelo lineal ocasiona que se modele la superficie de respuesta con líneas rectas o planos, mientras que las superficies de respuesta de segundo orden y mayores corresponden a formas geométricas más complejas. En ocasiones se utilizan modelos más complejos para la respuesta de superficie (Montogomery (2000), Montogomery y Myers (1995).
Read more...

viernes, 11 de diciembre de 2009

Modelos lineales generalizados (GLM)

Modelos lineales generalizados

   Los  modelos lineales generalizados (GLM) tienen como objetivo describir el efecto de una o más variables explicativas (independientes) sobres una o más variables respuesta (dependientes).

1 o más variables explicativas    -(efecto)->    1 o más variables respuesta
(X0, …, Xd independientes)                    (Y0, …, Yr dependientes)

   Las componentes del vector Y son variables independientes con distribución proveniente de una familia exponencial. Las variables X0, …, Xd originan un predictor lineal η dado por η =β0 + β1X1 +...+βdXd, o en forma matricial η = Aβ.
   El predictor lineal y la variable dependiente están relacionados por una función de enlace o link g, siendo g monótona y diferenciable. Podemos escribir el modelo en cualquiera de sus 3 formas:
 

  1.   Familia exponencial: una variable aleatoria Y tiene distribución proveniente de una familia exponencial si su función de probabilidad puntual o de densidad es de la forma:



    Si  a(y)=y  se dice que f está dada en su forma canónica. Ejemplos: Poisson, Normal y Binomial



  2. Un GLM queda especificado mediante tres componentes:
    1. Componente aleatoria: distribución de probabilidad de la variable respuesta Y que pertenece a la familia exponencial natural. 
    2. Componente sistemática: función lineal de las variables explicativas que se usa como predictor lineal.
    3. Función de enlace o ligadura: función g que describe la relación funcional entre la componente sistemática y el valor esperado de la componente aleatoria.
               
               Tipos de Modelos Lineales Generalizados para el Análisis Estadístico:

Comp. aleatorio    Link    Comp. sistemático    Modelo
Normal                           Identidad              Continuo                 Regresión
      Normal                           Identidad              Categórico      Análisis de varianza
       Normal                           Identidad              Mixto           Análisis de covarianza
        Binomial                         Logit                    Mixto                 Regresión logística
Poisson                           Log                     Mixto                      Log-lineal
            Multinomial            Logit  generalizado        Mixto                Respuesta multinomial

      3.   Comparación con modelos lineales:





Modelo lineal simple (ML)

   El modelo de probabilidad lineal o modelo de regresión lineal, es de la forma:
 Y(x)=a+βx+epsilon(x)
 donde E[Y|X=x]=p(x)=a+βx. Sin embargo, este modelo no puede explicar el comportamiento de las probabilidades de respuesta de una variable aleatoria binaria:
  • porque las probabilidades pertenecen al intervalo [0,1] y la función lineal toma valores en toda la recta real
  • porque no existe homocedasticidad: la varianza de la variable respuesta Var[Y|X=x]=p(x)(1-p(x)), es decir, no es constante para todos los valores de X (los estimadores mínimos cuatrados son ineficientes)
  • La variable Y no es Normal (no se pueden utilizar distribuciones muestrales de lso estimadores mínimos cuadrados para su inferencia)
  • la tasa de cambio es constante: variaciones iguales de la probabilidad de respuesta frente a variaciones iguales de la variable explicativa. Sin embargo, esto no se cumple para variables respuesta aleatorias binarias.


Modelos no-lineales


  Los modelos no lineales son de la forma:
Y(x)=F(a+βx)+epsilon(x)
donde p(x)=F(a+βx), con F una función distribución estrictamente creciente y F-1(p(x))=a+βx. La relación entre x y p(x) es curvilínea, monótona y acotada entre [0,1].

Ejemplos de F: función de distribución logística para el Modelo de rergesión logística;(1), función de distribución normal para el modelo probit (2) y función de distribución Gumbel para el modelo de valores extremos (3).

  1. Modelo de regresión logística (logit)

   El modelo de regresión logística o función logística, es un modelo lineal generalizado en el cual la variable de respuesta Y es binaria, siendo p la probabilidad de que ocurra el evento en cuestión.
  El modelo simple es de la forma:
p(x)=e(a+βx)/(1+e(a+βx))=1/(1+e-(a+βx))

o lo que es lo mismo, su transformación logit: ln(p(x)/(1-p(x)))=a+βx
   La función de enlace o link adecuada es la función logit (ec.1),  cuya función inversa es la función logística   (ec.2). Si (ec.3), el  modelo de regresión logística está dado por (ec.4), o lo que es lo mismo (ec.5).


Interpretación de los coeficientes:
    La ventaja de la respuesta Y=1 para el calor observado de X=x viene dado por el cociente Odds=p(x)/(1-p(x)).  El Odds es una medida de riesgo que nos indica  cuanto más probable es que ocurra un evento respecto a que no ocurra β0 -> e(β0).
    Entonces se define el riesgo relativo de respuesta Y=1 para dos valores distintos x1 y x2 de la variable explicativa X: R12=p(x1)/p(x2).
    El cociente de ventajas (Odds ratio, OR) de respuesta Y=1 dados x1 y x2 distintos, es:  OR=[p(x1)/(1-p(x1))]/[p(x2)/(1-p(x2))]. Este permite estimar el incremento de “riesgo” de la variable dependiente  por unidad de variación de las variables independientes.  El Odds ratio (OR) cuantifica la magnitud de la relación entre la respuesta y el cambio en una unidad del factor de interés.

   Además, la relación de los cociente de entajas con el riesgo relativo, viene dada por:
OR=R12x(1-p(x2))/(1-p(x1))
   Haciendo cuentas, tenemos que cuando X aumenta una unidad, el incremento de riesgo es OR=e(β1). Si X aumenta k unidades OR=e(kβ1).



  1.  
  2. Modelo probit
  3. Modelo de valores extremos






Read more...

Libros para descargar (gratis) sobre Diseño y Análisis Experimental