8.8 Análisis de un caso de un modelo de regresión lineal múltiple.

En esta sección se presenta el desarrollo en detalle de un supuesto práctico del modelo de regresión lineal múltiple con dos variables regresoras, en los cálculos se utiliza toda la teoría expuesta en este capítulo.

Ejemplo 8.1.

“Los datos de la tabla adjunta proporcionan el volumen (en pies cúbicos), altura (en pies) y diámetro (en pulgadas, medido a 54 pulgadas del suelo) de una muestra de 31 árboles del tipo cerezo negro, en el Allegheny National Forest, en Pensilvania. Con estos datos se quiere hacer un estudio sobre el rendimiento de la madera y, para ello, se ajusta un modelo de regresión lineal que permita predecir el volumen de un árbol cuando se conoce su altura y diámetro”.

|-----|----|-----|-----|---|-----|-----|----|-----|-----|----|-----|
|Di-á-|Al--|Vol--|Diá--|Al-|-Vol-|-Diá-|-Al-|Vol--|Di-á-|Al--|Vol--|
| 8'3 | 70 |10'3 |11'4 |76 | 21'0 | 14'5 | 74 |36'3 |11'2 |75  |19'9 |
|--'--|----|--'--|--'--|---|---'-|---'-|----|--'--|--'--|----|--'--|
|-8'6-|-65-|10'3-|11'4-|76-|-214'-|-160'-|-72-|38'3-|11'3-|79--|24'2-|
|-8-8-|-63-|10-2-|11-7-|69-|-213-|-163-|-77-|42-6-|14-0-|78--|34-5-|
|10'5-|-72-|16'4-|12'0-|75-|-19'1-|-17'3-|-81-|55'4-|14'2-|80--|31'7-|
|10'7 | 81 |18'8 |12'9 |74 | 22'2 | 17'5 | 82 |55'7 |11'1 |80  |22'6 |
|--'--|----|--'--|--'--|---|---'-|---'-|----|--'--|--'--|----|--'--|
|10-8-|-83-|19-7-|12-9-|85-|-338-|-179-|-80-|58-3-|13-8-|64--|24-9-|
|11'0-|-66-|15'6-|13'3-|86-|-27'4-|-18'0-|-80-|51'5-|20'6-|87--|77'0-|
|11'0 | 75 |18'2 |13'7 |71 | 25'7 | 18'0 | 80 |51'0 |     |    |     |
-------------------------------------------------------------------

Figura 8.2. Datos del ejemplo 8.1.

* Estimación de los coeficientes del modelo de regresión son

       (  ^a0 )
                  (  t )- 1  t
^a   =     ^a1    =  X X     X Y  =
          ^a2
       (                              ) -1(          )    (          )
              31     410'7    2.356'0          935'3         -57'987
    =       410'7   5.736'55   31.524'7        13.887'9    =      4'708
          2.356'0   31.524'7  180.274'0        72.962'9           0'339

El modelo estimado es

                '      '               '
Volumen   = - 57987 + 4708 diámetro + 0339 altura

Para calcular la varianza residual, dado que  sum i = 1nyi2 = 36.324'99, utilizando (8.11) se obtiene

                    n
^s2  =   ----1------ sum  e2
 R      n - (k + 1) i=1 i

    =   1--[36.324'99- (- 57'987 .935'3+ 4'708.13.887'9+ 0'339 .72.962'9)]
        28

    =   15'0686 ==>  ^s  = 3'882.
                   R

La matriz de varianzas de los estimadores puede aproximarse por

                    (     '       '        '    )           '
               '         4952    0 028  - 0 069       q00 = 4 952
V ar(^a)  =   15 0686     0'028    0'005  - 0'001   ==>   q11 = 0'005
                       - 0'069   -0'001    0'001       q22 = 0'001
             (                          )
                74'619    0'432  - 1'050       V ar(a0) = 74'619
V ar(^a)  =       0'432    0'069  - 0'017    ==>  V ar(a1) = 0'069
                -1'050  - 0'017    0'017       V ar(a ) = 0'017
                                                    2

* Intervalos de confianza al 90% de los parámetros del modelo.

Para la varianza s2

(n--(k-+-1))^s2R-   2         28-.15'0686    2
      s2       ~ xn- (k+1) ==>      s2     ~ x28,

x2 (0'05)= 16'918 < 421'92 < 41'393 = x2 (0'95),
 28                   s2               28

   '                     '
42192-=  10'193 < s2 < 421-92 = 24'939.
41'393                 16'918

Para a0

^a0 - a0                 - 57'987 - a0   - 57'987- a0
^s-V ~ q-- ~   tn-(k+1) ==> -'---- V~ -'---= ----8'638----~  t28
 R   00                 3 882  4 952
                '    '         '            '    '       '
         ==>   - 1702 8 638 < -57 987-  a0 < 1702 8638 = 14 702

                 '       '              '        '
         ==>   - 57987 - 14 702 < a0 < -57 987 + 14702

                 '              '
         ==>   - 72689 < a0 < - 28 583.

Para a1 (diámetro)

a^1 - a1                  4'708 - a1    4'708-  a1
-^s- V~ q--  ~   tn- (k+1) ==> -'---- V~ -'-- = ---0'264--- ~ t28
  R   11                 3 882  0 005
               '      '      '            '      '       '
          ==>   4444 = 4 708- 0 264 < a1 < 4708 + 0 264 = 4972.

Para a2 (altura)

                          '             '
a^2-- V~ -a2-  ~   tn- (k+1) ==> -0-339 V~ --a2 = 0-339---a2 ~ t28
 ^sR  q22                 3'882  0'001      0'130

          ==>   0'118 = 0'339- 0'221 < a2 < 0'339 + 0'221 = 0'560.

* Contrastes individuales de la t para los coeficientes del modelo de regresión.

Contraste C0, H0 : a0 = 0 frente a H1 : a0/=0.

      a^0                     - 57'987     '
^t0 = ^s- V~ q-- ~ tn-(k+1) ==> ^t0 = -8'638--= 6 713 ~ t28
     R   00

      '
p0 = 0000 ==>  Se rechaza H0

Contraste C1 (diámetro), H0 : a1 = 0 frente a H1 : a1/=0.

                                      '
^t = ^t    =  --^a V~ 1---~ t       ==>  ^t =  4708-= 17'816 ~ t
1    diam    ^sR  q11    n-(k+1)    1   0'264             28

p1 = 0'000 ==>  Se rechaza H0

Por tanto la variable “diámetro” influye y explica el comportamiento de la variable respuesta “volumen”.

Contraste C2 (altura), H0 : a2 = 0 frente a H1 : a2/=0.

                                    '
^t =  ^t  = --V^a ~ 2-- ~ t       ==>  ^t = 0-339 = 2'607 ~ t
 2   alt  ^sR  q22    n-(k+1)   2   0'130           28

p2 = 0'0145 ==> Se rechaza H0

Por tanto la variable “altura” influye y explica el comportamiento de la respuesta “volumen”.

* Tabla ANOVA. Contraste conjunto de la F.

Se obtiene la siguiente tabla ANOVA,

Tabla ANOVA





Fuentes de Suma de Grados de Varianzas
Variación Cuadrados libertad








Por el modelo
7.684'16
2
^s e2 = 3.842'08




Residual
421'92
28
^s R2 = 15'06




Global
8.106'08
30
^s y2 = 270'20




Con estos datos se obtiene el siguiente estadístico del contraste conjunto de la F,
      ^s2   3.842'08
^FM =  -e2-= ----'---=  254'97 ~ F2,28 ==> p- valor = 0'0000.
      ^sR     1506

Se rechaza la no influencia del modelo en la variable respuesta. En base a los resultados de los contrastes individuales de la t y el contraste conjunto de la F se deduce la influencia de cada una de las dos variables regresoras y la influencia conjunta del modelo de regresión en la variable de interés, “volumen” de los árboles.

* Contraste individual de la F.

A continuación se estudia el contraste sobre la influencia individual de la variable diámetro en la respuesta volumen, utilizando el contraste individual de la F.

Una vez calculado el modelo de regresión completo (con las dos variables regresoras)

Volumen  =  -57'987+  4'708 diámetro+ 0'339 altura,

la tabla ANOVA del modelo completo es

Tabla ANOVA (modelo completo)





Fuentes de Suma de Grados de Varianzas
Variación Cuadrados libertad








Por el modelo
7.684'16
2
^s e2 = 3.842'08




Residual
421'92
28
^s R2(2) = 15'06




Global
8.106'08
30
^s y2 = 270'20




Se calcula la regresión de volumen respecto a la altura
Volumen  =  -87'124+  1'543 altura,

la tabla ANOVA de este modelo es

Tabla ANOVA (una regresora)





Fuentes de Suma de Grados de Varianzas
Variación Cuadrados libertad








Por altura
2.901'19
1
^s e2 = 2.901'19




Residual
5.204'90
29
^s R2(1) = 179'48




Global
8.106'08
30
^s y2 = 270'20




La suma de cuadrados incremental debida a la variable diámetro es
 /_\ scE (di´ametro) = scE (2)- scE (altura) = 7.684'16- 2.901'19 = 4.782'97,

este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir la variable diámetro.

Para contrastar la influencia o no de la variable altura se utiliza el estadístico

          /_\ scE (xi)
         ----1-----  4.782'97      '                 '
F^diam =  --^s2(k)---= --15'06-- = 317 19 ~ F1,28 ==> p = 0000
            R

En este contraste se obtiene el mismo p-valor que el obtenido con el contraste individual de la t.

* Coeficientes de determinación y de correlación.

El coeficiente de determinación

      7.864'16
R2 =  ----'---= 0'9479.
      8.106 08

El modelo ajustado explica el 94'79% de la variabilidad de la respuesta.

El coeficiente de correlación múltiple,

R =  V~ 0'9479-= 0'9736.

El coeficiente de determinación corregido por el número de grados de libertad,

          2          '
R2 =  1- s^R- = 1-  15068-= 94'42.
         ^s2Y        270'20

El coeficiente de correlación múltiple corregido por el número de grados de libertad,

      V~ -'---    '
R =   0 9423 = 0 9707

El coeficiente de correlación simple entre las variables volumen y altura,

            Cov (vol,alt)    '
r(vol,alt) = s(vol)s-(alt)-= 0 5982,

es una medida de la relación lineal existente entre las variables volumen y altura.

Otra forma de calcular el coeficiente de correlación simple es hacerlo a partir del coeficiente de determinación de la siguiente regresión lineal simple,

               '       '
Volumen  =  -87 124+  1543 altura,

la tabla ANOVA de este modelo es

Tabla ANOVA





Fuentes de Suma de Grados de Varianzas
Variación Cuadrados libertad








Por altura
2.901'19
1
^s e2 = 2.901'19




Residual
5.204'90
29
^s R2(1) = 179'48




Global
8.106'08
30
^s y2 = 270'20




De donde,
  2   2.901'19    '            '
R  =  8.106'08-= 03579 ==>  R = 0 5982 = r(vol,alt)

 

El coeficiente de correlación parcial entre las variables volumen y altura controlado por la variable diámetro. Utilizando la relación (8.31) se obtiene
 2               -------^t2alt------   -------2'6072--------   '
r(vol,alt).diam  =   ^t2  + n - (k + 1) = 2'6072 + 31 - (2+ 1) = 0 1953.
                  alt
                                '
             ==>   r(vol,alt).diam = 0 442.

Una forma más complicada de obtener este coeficiente es la siguiente: se calculan las siguientes regresiones lineales simples y se guardan los residuos,

               '      '
Volumen  = - 36 943+ 5 066 diametro + evol.diam

           '       '
Altura = 62 031+ 1 054 diametro  + ealt.diam

El coeficiente de correlación parcial entre las variables volumen y altura se obtiene como el coeficiente de correlación simple entre las variables evol.diam y ealt.diam

r(vol,alt).diam  =   r(evol.diam,ealt.diam)


             =   Cov-(evol.diam,ealt.diam)-= 0'442.
                 s (evol.diam) s (ealt.diam)

Este coeficiente proporciona una medida de la relación entre las variables volumen y altura libres de la influencia de la variable diámetro. Si se quiere comparar con el coeficiente de correlación lineal simple de las variables volumen y altura, se obtiene que

            Cov  (vol,alt)
r (vol,alt) =-------------= 0'598.
            s (vol)s(alt)

El coeficiente de correlación parcial entre las variables volumen y diámetro controlado por la variable altura es (se utiliza la relación (8.31))

                        ^2                '   2
r2(vol,diam).alt =   -------tdiam------- = --17-816----= 0'9189.
                 ^t2diam +  n- (k + 1)   17'8162 + 28

             ==>   r(vol,diam).alt = 0'9586.

* Estimación de la media condicionada.

“Estimar el volumen medio de los árboles de diámetro 10 y altura 80
(xt = (x1,x2) = (10,80))”.

La estimación de la media es

 

^mt  =   ^m((10,80)) = a^0 + ^a1x1 + ^a2x2
    =   -57'988+ 4'70810 + 0'33980 = 16'234.

El valor de influencia asociado a la observación xt = (x1,x2) = (10,80) es

       (     )-1                     1
htt = xtt XtX    xt = 0'1299 ==> nt = -'---- = 7'695.
                                   0 1299

La varianza del estimador,

V ar(m^t) = ^s2R htt = 3'882 .0'1299 = 0'5043 ==> s (^mt) = 0'710

Un intervalo de confianza al 90% de m((10,80)) es

 

           '        ( ' )  '        '      '
mt    (-   16234 ± t28 095  0 710 = 16234 ± 2382
     ==>   mt  (-  (13'852,18'616)

* Predicción.

“Predecir el volumen del árbol de la plantación numerado con el 100 que tiene un diámetro 10 y una altura de 80”.

La predicción es

                   '      '         '          '
^y(10,80) = ^yt = - 57 988+ 4 70810 + 0339 80 = 16234.

La varianza de la predicción es

V ar(^yt) = ^s2R (1+ htt) = 17'027 ==> s (^yt) = 4'126

Un intervalo de predicción al 90% es

 

                  (    )
yt   (-  16'234± t28 0'95 4'126 = 16'234 ± 7'023
       ( '      '  )
yt   (-   9 211,23217  .

En la tabla adjunta se obtienen las predicciones, intervalos de confianza e intervalos de predicción para diferentes valores de xt. Tener en cuenta que x = (x1,x2) = (13'25,76)

|--------|-------|--------------------------|--------------------------|
|-----xt-|-----^yt|--I.Conf.(90%)---Longitud--|--I.Pred.(90%)---Longitud---|
| (5,50) |- 17'48 |  (-22'59;-12'37)  10'22  |  (- 25'84;- 9'13)   16'71   |
|(10,80)-|--16'23-|-------'----'------'------|------'----'-------'------|
|--------|----'--|----(138'5;18'61)--4'76----|----(92'1;23-2'5)--14-0'4----|
|(15,82)-|--4045-|----(3880;42-09)--3-29----|---(33-65;4726)--13-61----|
-(20,90)----66'71------(63'47;69'94)--6'47--------(59'35;74'06)--14'71-----
|(25,95) |  91'95 |    (87'05;96'84)  9'79    |   (83'72;100'17)  16'45   |
------------------------------------------------------------------------

 

* “¿Es bueno el modelo de regresión ajustado? ¿se puede mejorar este modelo?”.

El modelo de regresión ajustado es

                '      '               '
Volumen   = - 57987 + 4708 diámetro + 0339 altura

Las características de las estimaciones se recogen en la siguiente tabla






Modelo 1 ^a s(^a) t p - valor





Constante
-57'988
8'638
-6'713
0'000





Diámetro
4'708
0'264
17'816
0'000





Altura
0'339
0'130
2'607
0'014





Las dos variables regresoras son significativas. La tabla ANOVA del modelo es
 
Modelo 1
Suma de
cuadrados
g.l. varianza F p - valor
Regresión
7684'163
2
3842'081
254'972
0'000
Residual
421'921
28
15'069
 
 
Global
8106'084
30
270'203
 
 

R2 = 0'974 R2 = 0'944 ^s R = 3'882

La bondad del ajuste del modelo de regresión es alta. Dos gráficos de interés son el gráfico de predicciones (^y)  frente a la respuesta observada (y)  y el gráfico de residuos (e) frente a las predicciones (^y), estos gráficos se representan en las Figuras 8.3. y 8.4. En la Figura 8.3. se observa que el ajuste es razonablemente bueno ya que las predicciones están próximas a los valores observados (los puntos se acercan a la diagonal), pero en la Figura 8.4. se observa que el comportamiento de los residuos no es adecuado ya que los puntos parecen seguir una parábola.

(^y)

Figura 8.3. Gráfico de predicciones frente a la respuesta.

(^y)

Figura 8.4. Gráfico de residuos frente predicciones.

Se ajusta un modelo de regresión introduciendo un término cuadrático, la variable regresora “diámetro al cuadrado”. Los resultados de este nuevo ajuste son los siguientes:
Volumen  = - 9'920 - 2'885 diámetro + 0'269 diámetro2 + 0'376 altura

 

Los contrastes individuales son:






Modelo 2 ^a s(^a) t p - valor





Constante
-9'920
10'079
-0'984
0'334





Diámetro
-2'885
1'310
-2'203
0'036





Diámetro2 
0'269
0'046
5'852
0'000





Altura
0'376
0'088
4'266
0'000





Las tres variables son significativas con a = 0'05, la tabla ANOVA del nuevo modelo ajustado es:
Modelo 2
Suma de
cuadrados
g.l. varianza F p - valor
Regresión
7920'072
3
2640'024
383'205
0'000
Residual
186'012
27
6'889
 
 
Global
8106'084
30
270'203
 
 

R2 = 0'988 R2 = 0'975 ^s R = 2'625

 

El segundo modelo mejora al primero ya que el coeficiente R2 ha aumentado y la varianza residual ha disminuído. En el gráfico de predicciones (^y)  frente a la respuesta (y)  (Figura 8.5.) se observa que los puntos se ajustan mejor a la diagonal. En el el gráfico de residuos (e) frente a las predicciones (y) (Figura 8.6.) se observa un mejor comportamiento de los residuos y parece que se cumplen las hipótesis estructurales, aunque este aspecto se debe estudiar con más detalle (ver capítulo 9).

(^y)

Figura 8.5. Gráfico de predicciones frente a la respuesta.

(^y)

Figura 8.6. Gráfico de residuos frente a predicciones.