domingo, 13 de septiembre de 2009

aplicaciones

Read more...

jerarquicos

Read more...

Diseños factoriales


    Los diseños factoriales surgen cuando se desea investigar el efecto de dos o más factores sobre una variable respuesta estudiando todas las posibles combinaciones de sus niveles. Por ejemplo, cuando se tienen dos factores A y B; con a y b niveles, respectivamente, se investigan, en cada ensayo completo o réplica del experimento, todas las posibles combinaciones ab de los tratamientos. 
    Para determinar el efecto de cada factor en la respuesta, se debe determinar el cambio experimentado por la respuesta cuando se produce un cambio en el nivel del factor. Este efecto se refiere como efecto principal puesto que se debe a los factores de interés. En cambio, cuando se analizan los cambios o variabilidad de la respuesta debida a la interacción entre dos o más factores, no se habla de efectos principales sino de efectos de interacción. Cuando la magnitud de dichos efectos es elevada, los efectos debidos a factores principales tienen poco significado práctico. Así, en esta situación sería necesario mantener fijos los niveles de los otros factores, para el análisis de un factor principal en presencia de interacciones significativas.
    Los diseños factoriales son más eficientes que los diseños de un factor. Adicionalmente, este tipo de diseños son necesarios cuando hay interacciones significativas entre los factores para evitar conclusiones engañosas. Los diseños factoriales permiten asimismo estimar los efectos de un factor en diferentes niveles de otros factores, obteniéndose resultados e interpretaciones que son válidas bajo todas las condiciones experimentales.



Material (pincha aquí)

  • Diseño factorial (uni-, bi- y tri-factorial)
  • Ajustes de curvas y superficies de respuesta  

Análisis estadístico: modelo bifactorial





En particular, para k=1 réplicas tenemos:


Read more...

cuadrado latino y grecolatino

Read more...

bloques

  En un diseño aleatorizado por bloques completos se consideran tres fuentes de variabilidad: el factor de tratamientos, el factor de bloques y el error aleatorio. La palabra completo se debe a que en cada bloque se prueban todos los tratamientos, es decir, que los bloques están completos. La aleatorización se hace dentro de cada bloque; no se realiza de manera total como en el diseño completamente al azar. 
  Además del diseño completamente aleatorizado por bloques, existen otros diseños interesantes que explotan la idea de la formación de bloques, por ejemplo: el diseño de bloques incompletos balanceados. 
  
  El análisis por bloques permite controlar sistemáticamente fuentes de variabilidad externas que intervienen o actuan en la observación de la variable respuesta. Puesto que en estos casos, la componente aleatoria de error o error experimental asociada a cada observación refleja tanto el error aleatorio como la variabilidad debida a los elementos físicos que intervienen en la realización del experimento. Por tanto, se considerara no sólo el diseño de factores internos sino también la actuación de las fuentes de variabilidad externas que se reflejan en el diseño de los bloques o variación entre bloques.

  • Diseño por bloques aleatorizados completos
    • Adecuación del modelo
    • Estimación mínimo cuadrática de los parámetros y contrastes de significación
  • Diseño por bloques aleatorizados incompletos
    • balanceado
    • Estimación mínimo cuadrática de los parámetros
    • Información inter-bloque en el diseño balanceado

  •    Contrastes de comparación múltiple en el caso del diseño aleatorizado por bloques completos considerando efectos fijos de los tratamientos y bloques.
Si en un diseño aleatorizado por bloques los tratamientos son fijos y el análisis de varianza indica que existe una diferencia significativa entre las medias de tratamiento, el investigador estará interesado en realizar comparaciones adicionales en grupos de medias de tratamiento, para determinar cuáles son las medias que difieren. Con algunas variantes, cualquier método estudiado en el diseño unifactorial puede ser utilizado para este fin. Para llevar a cabo las comparaciones entre grupos de tratamiento para un diseño aleatorizado por bloques se debe sustituir el número de réplicas o repeticiones (n) por el número de bloques (b) en las fórmulas utilizadas en cada uno de los métodos estudiados en los diseños unifactoriales y además se debe utilizar los grados de libertad del error que están definidos por (a-1)(b-1) para un diseño aleatorizado por bloques. A continuación se presentarán los métodos descritos para el diseño unifactorial, expresando solamente las variantes que se deben incorporar para llevar a cabo la comparación de medias de tratamiento para un diseño aleatorizado por bloques. Las hipótesis a probar, el procedimiento y conclusiones se harán de igual manera que para el diseño unifactorial.
  1.   Comparación de Parejas de Medias de Tratamientos.
    1. Método de la Mínima Diferencia Significativa (LSD). El LSD estará dado de la siguiente manera: LSD= t_alfa/2(a-1)(b-1)*sqrt(2MS_e/b)
    2. Prueba de Intervalos Múltiples de Duncan. El error estándar de cada promedio se calcula de la siguiente forma: S_Yi· = sqrt(MS_e/b) . Para encontrar los intervalos significativos r_alfa(p,f), para p=2,3,...,a, a sigue siendo .... el nivel de significancia y f el número de grados de libertad del error que son (a-1)(b-1). De igual manera para  encontrar los mínimos intervalos significativos R_p = r_alfa(p,f)*S_Y·  con p=2,3,...,a, se tomará f como el número de grados de libertad del error (a-1)(b-1).
    3. Prueba de Tukey. El valor crítico de todas las comparaciones vendrá dado por: T_alfa = q_alfa (a,f)*S_Y· donde S_Y· es el error estándar de cada promedio y está dado por S_Y·=sqrt(MS_e/b) y f=(a-1)(b-1) los grados de libertad del error, alfa el nivel de significancia y a el número de tratamientos.
  2.  Comparación de Medias de Tratamientos Individuales 
  3.  Comparación de Tratamientos con un control.
  •    Eficiencia relativa del diseño aleatorizado por bloques. Relación existente entre esta fórmula y la estimación de derivada.
   El análisis o estudio de un experimento puede ser llevado a cabo a través de un diseño unifactorial (o diseño Completamente Aleatorizado) o por un diseño completamente aleatorizado por Bloques. Sin embargo, se puede dar el caso que no se obtenga la misma sensibilidad. En general al utilizar un diseño unifactorial la suma de cuadrados medios del error (MS_e) podría ser mayor que al utilizar un diseño aleatorizado por bloques; ya que el diseño aleatorizado por bloques reduce suficientemente la cantidad de ruido para lograr detectar diferencias significativas entre los tratamientos.
   En un diseño aleatorizado por bloques resulta útil estimar la eficiencia relativa, para compararlo con el diseño unifactorial. El valor que resulta de esta estimación se puede interpretar como el incremento del número de réplicas necesarias que hay que llevar a cabo en un diseño unifactorial para que pueda ser usado en lugar de un diseño aleatorizado por bloques, y así mantener la misma sensibilidad en ambos diseños.

   La forma de definir la eficiencia relativa es mediante la siguiente fórmula:
R=[(df_b+1)*(df_CS+3)*sigma2_CA ]/ [(df_b+3)*(df_CA+1)*sigma2_b]

donde sigma2_CA y sigma2_b son la varianza del error experimental del diseño unifactorial  y del diseño aleatorizado por bloques, respectivamente, y df_CA y df_b sus grados de libertad (df_CA=N-a  y df_b=(a-1)*(b-1)).  Se realiza entonces un ajuste sobre la diferencia grados de libertad entre los dos diseños mediante la razón de grados de libertad en R.
   Como puede observarse para calcular la eficiencia relativa, se deben llevar a cabo estimaciones para sigma2_CA y sigma2_b, las cuales es posible estimarlas de la siguiente forma: sigma2_b ~ MS_e del diseño aleatorizado por bloques, y sigma2_CA=[ (b-1)*MS_bloques + b*(a-1)*MS_e ]/(ab-1), es un estimador insesgado de la varianza del error de un diseño unifactorial, con MS_bloques la suma de cuadrados medios del efecto de los bloques.

  •    Describir cómo es la formulación iterativa de la estimación de un dato faltante en el caso de dos datos faltantes.
   Algunas de las observaciones en uno de los bloques puede hacer falta, cuando se utiliza un Diseño Aleatorizado por Bloques Completos; esto puede suceder debido a algún descuido o error, o por razones fuera de control del experimentador, como la pérdida de alguna unidad experimental. Una observación faltante genera un problema en su análisis, ya que hace que el Diseño este desbalanceado, y se dice que los tratamientos y los bloques no son ortogonales, porque todos los tratamientos no ocurren en todos los bloques. Existen varias formas de solucionar este problema, una de ellas es realizar un análisis aproximado en el que se estima la observación faltante y luego se lleva a cabo el Análisis de Varianza tomando la observación estimada como si fuera un dato real. Este análisis aproximado consiste en hacer estimaciones de los valores faltantes, de manera que se minimice la media de cuadrados del error.
   Supóngase que falta la observación Y_ij que corresponde al tratamiento i y al bloque j; y se representa por x.
   El procedimiento que se lleva a cabo para estimar Y_ij, es el siguiente:
  1. Se calcula el gran total con la observación faltante y se representa por Y`_·· .
  2. Se obtienen los totales del tratamiento y del bloque con el dato faltante que se representa por Y`_i· y Y`_·j respectivamente.
  3. Se calcula el estimador de la observación faltante de la siguiente forma: Y_ij = [ aY`_i· + bY`_·j - Y_·· ] /[(a-1)(b-1)]
   Para más detalles (Ver Douglas C. Montgomery, 1991, Pág 133 y 134)

   Puede suceder que falte más de una observación en el experimento. Existen dos formas para encontrar estas observaciones:
  1. Utilizar el procedimiento descrito anteriormente iterativamente. Por ejemplo, supóngase que hacen falta dos observaciones, la forma de llevar a cabo la estimación de las dos observaciones, es estimando arbitrariamente el primer valor faltante y se usa este valor como un dato real para estimar el segundo. Luego se hace una segunda estimación para el primer dato faltante utilizando la estimación del segundo; con la estimación encontrada para el primero se vuelve a estimar el segundo. Este procedimiento continúa hasta obtener la convergencia en los valores estimados; es decir, hasta que resulten valores parecidos en cada iteración.
  2. Escribir la suma de cuadrados del error en función de los datos faltes, derivar con respecto a cada uno, igualar a cero y resolver las ecuaciones que resultan. 
   En general, para cualquier problema que falten datos, el número de los grados de libertad del error se debe reducir en uno por cada dato que es estimado.

   Además del diseño completamente aleatorizado por bloques, existen otros diseños interesantes que se introducen brevemente a continuación y que explotan la idea de la formación de bloques, por ejemplo: el diseño de bloques incompletos balanceados.


  •   Diseños por bloques incompletos balanceados
   Puede darse el caso que en algunos experimentos que usan Diseños Aleatorizados por Bloques no se puedan llevar a cabo los ensayos de todas las combinaciones de tratamientos dentro de cada bloque; ya sea por la escasez de los recursos del experimento, por la situación económica, o por el tamaño físico de los bloques. Para analizar estos tipos de experimentos se usa el Diseño Aleatorizado por Bloques en los que cada tratamiento no está presente en cada bloque; y a este tipo de Diseño se conocen como Diseño Aleatorizado por Bloques Incompletos.
   Un Diseño particular de ellos son los Diseños por Bloques Incompletos Balanceados; el cual consiste en un Diseño por Bloques Incompleto en el que cualquier par de tratamientos ocurren juntos el mismo número de veces. Si se tienen tratamientos a y se pueden probar k (k tratamientos en cada bloque entonces un Diseño Balanceado por Bloques Incompletos puede ser construido tomando (a k) combinaciones de bloques y asignándose una combinación de tratamientos diferentes a cada bloque. Sin embargo frecuentemente es posible obtener un Diseño Balanceado con menos de (a k) combinaciones de bloques.
  • REPRESENTACIÓN SIMBÓLICA DE LOS DATOS
  •  MODELO ESTADÍSTICA
  • SUMAS Y MEDIAS DE CUADRADOS
  • ANÁLISIS ESTADÍSTICA
  • ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO
  • COMPARACIÓN ENTRE TRATAMIENTOS
  •   Análisis de datos-Ejemplo
DISEÑO COMPLETAMENTE ALEATORIZADO PRO BLOQUES en R
 
> Block=rep(c("P15","P20","P25","P30","P35"),c(4,4,4,4,4))
> Treat=rep(c("A","B","C","D"),5)
> Datos=c(7,12,14,19,7,17,18,25,15,12,18,22,11,18,19,19,18,19,23,11)
> Data=cbind(Datos,Treat,Block)
> par(mfrow=c(1,2),cex=.8)
> interaction.plot(Treat,Block,Datos,type="b",legend=FALSE)
> interaction.plot(Block,Treat,Datos,type="b",legend=FALSE)
> M<-matrix(Datos,nrow=4,ncol=5)
> dimnames(M)=NULL
> rownames(M)=c("A","B","C","D");colnames(M)=c("P15","P20","P25","P30","P35")
> M
  P15 P20 P25 P30 P35
A   7   7  15  11  18
B  12  17  12  18  19
C  14  18  18  19  23
D  19  25  22  19  11

> library(lattice)
> B=stripplot(Block~Datos|Treat,layout=c(4,1))
> A=stripplot(Treat~Datos|Block,layout=c(5,1))
> print(A,plit=c(1,1,1,2),more=T)
> print(B,plit=c(1,2,1,2),more=F)

> Data=as.data.frame(Data)
> Da=as.list(Data)
> plot.design(Datos~Da$Treat+Da$Block)
> mod.aov=aov(Datos~Da$Treat+Da$Block)
> summary(mod.aov)

> library(PASWR)
> checking.plots(mod.aov)
> CI=TukeyHSD(mod.aov,which="Da$Treat")
> Media=NULL;for(j in 1:4){Med=mean(M[j,]);Media=c(Media,Med)}
> barplot(Media,ylim=c(0,30))
> library(psych)
> error.bars(t(M),add=T)
> par(mfrow=c(2,2))
> plot(mod.aov,pch=20)

> Mm=NULL;for(i in 1:4){S=mean(M[i,]);Mm=c(Mm,S)}
> Mn=NULL;for(i in 1:5){S=mean(M[,i]);Mn=c(Mn,S)}
> m=cbind(M,Mm)
> m=rbind(m,c(Mn,mean(Mm)))
> SSblock=4*sum((m[5,1:5]-mean(Datos))^2)
> SStrat=5*sum((m[1:4,6]-mean(Datos))^2)
> SS=NULL;for(j in 1:4){S=sum(((M[j,]-mean(M)))^2);SS=c(SS,S)}
> SStot=sum(SS)
> SSerror=SStot-SStrat-SSblock

    Read more...

    regresion lineal


    smooth relationships (Bolker 2007_ Ecological Models and Data in R)

    • ˆ R incorporates two slightly different versions of robust locally weightedregression (lowess and loess). This algorithm runs linear or quadratic regressions on successive chunks of the data to produce a smooth curve. lowess has an adjustable smoothness parameter (in this case the proportion of points included in the “neighborhood” of each point when smoothing) that lets you choose curves ranging from smooth lines that ignore a lot of the variation in the data to wiggly lines that pass through every point: in Figure 2.8a, I used the default value (lines(lowess(Initial,Killed))).
    • ˆ Figure 2.8a also shows a spline fit to the data which uses a series of cubic curves to fit the data. Splines also have a smoothing parameter, the degrees of freedom or number of different piecewise curves fitted to the data; in this case I set the degrees of freedom to 5 (the default here would be 2) to get a slightly more wiggly curve (smooth.spline(Initial, Killed,df = 5)).
    • ˆ Simpler possibilities include just drawing a straight line between the mean values for each initial density (using tapply(Killed,Initial,mean) to calculate the means and unique(Initial) to get the non-repeated values of the initial density), or plotting the results of a linear or quadratic regression of the data (not shown: see the R supplement). I plotted straight lines between the means in Figure 2.8b because local robust regression and splines worked poorly.


    Read more...

    Análisis de varianza: ANOVA. Efectos fijos y aleatorios en R.

    En esta entrada evaluaremos el análisis de varianza con efectos fijos y efectos aleatorios, así como aquellas situaciones donde tenemos medidas con repeticiones. Como resumen teórico:
    Resumen Anova Efectos Fijos y Aleatorios


    Nuestros objetivos son:
    • Deducir los valores esperados de las sumas de cuadrados medios (MS) entre tratamientos y dentro de cada tratamiento para el modelo de efectos fijos y efectos aleatorios.
    • Evaluar cuál de los cuatro métodos estudiados para realizar comparaciones múltiples entre niveles medios de tratamientos por pares posee mejores propiedades.
    • ¿Cómo afecta la violación de la hipótesis de normalidad a la prueba F en los modelos de efectos fijos y aleatorios?. ¿Influye de forma distinta en diseños con tamaños muestrales fijos y variables?.
    • Elaborar un resumen sobre los métodos no paramétricos usuales en el análisis de varianza.
    Aquí les dejo un resumen teórico del tema completo, y un ejemplo aplicado en R
    anova_1_via

    • Ejemplo: Análisis de datosen R (r-project)
    ########### ejemplo: ANOVA ##############
    ##Data
    A_15=c(7,7,15,11,9)
    B_20=c(12,17,12,18,18)
    C_25=c(14,18,18,19,19)
    D_30=c(19,25,22,19,23)
    E_35=c(7,10,11,15,11)
    ##Examen gráfico
    scores=data.frame(A_15,B_20,C_25,D_30,E_35)
    boxplot(scores)
    library(PASWR)
    scores2=stack(scores) #preparación de los datos
    X<-scores2[,1]
    INDEX<-scores2[,2]
    oneway.plots(X,INDEX) #dotplot, boxplot y
    design plot (means)

    ## Modelo con efectos fijos (FIXED MODEL)
    # Las medias de los tratamientos son o no iguales: Ho: mu1=mu2=...=mua vs Ha: mui!=muj
    # Cuando la Ho es cierta, se puede evaluar una afirmación equivalente en término de los efectos
    de los tratamientos: Ho: tau1=tau2=...=taua vs Ha: taui!=0
    ##Estimaciones: E(MSerror)=sigma^2 y E(MStrat)=sigma^2 + sum((ni*taui^2)/(a-1))
    #Prueba:
    TreatMean<-tapply(X,INDEX,FUN=mean)
    a<-length(TreatmentMean)
    N<-length(X)
    dft<-a-1
    dfe<-N-a
    GrandMean<-mean(X)
    ni<-nrow(scores)
    SStreat<-ni*sum((TreatMean-GrandMean)^2)
    SStot<-sum((X-GrandMean)^2)
    SSerror<-SStot-SStreat
    MStreat<-SStreat/dft
    MSerror<-SSerror/dfe
    Fobs<-MStreat/MSerror
    pvalue<-1-pf(Fobs,dft,dfe)
    ##equivalente
    summary(aov(X~INDEX))
    model.tables(aov(X~INDEX),type="means")
    ##Chequeo de supuestos; 3 supuestos en el componente de ERROR (se util los residuales como su estimador): independencia, distribución normal y varianza constante
    mod.aov<-aov(X~INDEX)
    library(MASS)
    r<-stdres(mod.aov)
    n<-length(X)
    #Chequeo de independencia de errores
    par(pty="s")
    plot(1:n,r,ylab="Standardized
    Residual"
    ,xlab="Ordered Value")
    #Chequeo de normalidad: qqplot y shapiro.test()
    par(pty="s")
    qqnorm(r)
    abline(a=0,b=1)
    shapiro.test(r)
    #Chequeo de varianza constante: plot de residuos (estandarizdos) vs valores ajustados; Levene
    tm<-fitted(mod.aov)
    plot(tm,r,xlab="Fitted Value",ylab="Standardized Residual")
    med<-tapply(X,INDEX,median)
    ZIJ<-abs(X-med[INDEX])
    summary(aov(ZIJ~INDEX))
    library(PASWR)
    checking.plots(mod.aov) ##package PASWR
    ##comparación múltiple de medias
    #Ho: Ho1 intersección Ho2 intersección ...HoK
    library(multcomp)
    library(multcompView)
    CI<-TukeyHSD(aov(X~INDEX,which="INDEX"))
    plot(CI,las=1)
    INDEX.aov<-aov(X~INDEX)
    MSE<-summary(aov(INDEX.aov))[[1]][2,3]
    alpha.c<-0.05
    ybari<-TreatmentMean
    TcritLSD<-qt(1-alpha.c/2,dfe)
    nn<-rep(ni,a)
    LSD<-TcritLSD*sqrt(MSE)*sqrt(sum(1/nn))
    TcritTUK<-qtukey(1-alpha.c/2,a,dfe)/sqrt(2)
    HSD<-TcritTUK*sqrt(MSE)*sqrt(sum(1/nn)) #nn es un vector de ni y nj, con el length=número de tratamientos
    library(gregmisc)
    NS<-tapply(X,INDEX,length)
    SE<-sqrt(MSE)/sqrt(NS)
    t.v<-qt(.95,dfe)
    ci.l<-ybari-t.v*SE
    ci.u<-ybari+t.v*SE
    barplot2(ybari,plot.ci=T,ci.l=ci.l,ci.u=ci.u,col="sky blue",ci.lwd=2)
    title(main="Mean X por INDEX \n con CI individual 95%")
    #multcompBoxplot(X~INDEX) Su gráfico no es fácilmente interpretable

    ## Modelo con efectos aleatorios (RANDOM MODEL)
    ##supuestos: eijNID(0,sigma), taui~NID(0,sigma), taui y eij son independientes
    #Ho: sigma-subtau^2=0 vs Ha: sigmasubtau^2>0
    #Estimaciones:
    #cuando los a tratamientos tienen igual tam de muestreo: sig2=estim(sigma)^2=MSerror y sig2tau=estim(sigma)-subtau^2=(MStreat- MSerror)/n
    #cuando los tamaños muestrales son desiguales, n se reemplaza por n`=1/(a-1)*sum(ni)-(sum(ni^2)/sum(ni))
    summary(aov(X~INDEX))
    MSC<-summary(aov(X~INDEX))[[1]][1,3]
    MSE<-summary(aov(X~INDEX))[[1]][2,3]
    #Estimación de los componentes de varianza
    sig2tau<-(MSC-MSE)/n #nº de tratamientos
    Read more...

    sábado, 12 de septiembre de 2009

    Diseño y Análisis de Experimentos

    1. Introducción. Principios y directrices del diseño de experimentos
    2. Análisis de la varianza de una sóla via
    3. Regresión lineal simple y múltiple
    4. Diseños por bloques aleatorizados completos e incompletos
    5. Diseños de cuadrado latino y grecolatino
    6. Diseños factoriales
    7. Diseños factoriales fraccionarios
    8. Diseños jerárquicos
    9. Métodos y diseños de superficies de respuesta


    Biblio:
    • Box, G. E., Hunter, J.S. y Hunter, W.G. (2008). Estadística para investigadores. Diseño, Innovación y descubrimiento. Editorial Reverté.
    ISBN 13: 978-84-291-5044-5.
    • Brenton, R. C. (2008). Linear models: the theory and applications of analysis of variance. ISBN: 978-0-470-0566-6.
    • Clarke, G. M. (1994). Statistical and experimental design: an introduction for biologists and biochemists. Edward Arnold.
    • Davis, Ch. S. (2002). Statistical methods for the analysis of repeated measurements. Springer.
    • Dobson, A.J. y Barnett, A.G. (2008). An introduction to generalized linear models. Series: Chapman & Hall/CRC texts in statistical science.
    • Fisher, R.A. (2003). Statistical methods, experimental design, and scientific inference. ISBN: 978-0-19-852229-4.
    • Gutiérrez P.H. (2003). Análisis y diseño de experimentos. McGraw-Hill.
    • Hocking, R. R. (2003). Methods and applications of linear models: regression and the analysis of variance. Wiley Series in Probability and Statistics. ISBN: 978-0-471-23222-3.
    • Kish, L. (2004). Statistical design for research. Wiley Interscience.
    • Lindman, H. R. (1992). Analysis of variance in experimental design. Springer-Verlag.
    • Kuehl, R. O. (2001). Diseño de experimentos. Principios estadísticos del diseño y análisis de investigación. Thomson Learning.
    • Peña, D. (2002). Regresión y diseño de experimentos. Alianza.
    • Montgomery, D. C. (2002). Diseño y análisis de experimentos. Limusa-Wiley.
    • Scheiner, S.M. (2001). Design and analysis of ecological experiments. Oxford UniversityPress.
    • Toutenburg, H. (2002). Statistical analysis of designed experiments. Springe
    Read more...

    Libros para descargar (gratis) sobre Diseño y Análisis Experimental