Práctica 5.2. Problema resuelto de regresión lineal múltiple.

Problema 5. 4. “Una desea estimar los gastos en alimentación de una familia (Y) en base a la información que proporcionan las variables regresoras X1 =“ingresos mensuales” y X2 =“número de miembros de la familia”. Para ello se recoge una muestra aleatoria simple de 15 familias cuyos resultados son los de la tabla adjunta
(El gasto e ingreso está dado en cientos de miles de pesetas)”







GastoIngresoTamañoGastoIngresoTamaño






0'43 2'1 3 1'29 8'9 3






0'31 1'1 4 0'35 2'4 2






0'32 0'9 5 0'35 1'2 4






0'46 1'6 4 0'78 4'7 3






1'25 6'2 4 0'43 3'5 2






0'44 2'3 3 0'47 2'9 3






0'52 1'8 6 0'38 1'4 4






0'29 1'0 5






Datos del problema [ASCII] [spss-10] [sgplus-5]

Solución Problema 5.4.

Los datos en forma matricial:

    (  0'43 )            (  1  2'1
3 )
        '                      '
       0 31                 1  11  4
       0'32                 1  0'9  5
       0'46                 1  1'6  4
        '                      '
       1 25                 1  62  4
       0'44                 1  2'3  3   (     )
       0'52                 1  1'8  6      a0
Y =    0'29    = Xa + e =   1  1'0  5      a    + e
        '                      '          1
       1 29                 1  89  3      a2
       0'35                 1  2'4  2
       0'35                 1  1'2  4
        '                      '
       0 78                 1  47  3
       0'43                 1  3'5  2
       0'47                 1  2'9  3
        '                      '
       0 38                 1  14  4

Con estos datos se obtiene

           sum                 sum
sum n = 15,     x1i = 42,        x2i = 55,            yi = 8'070,
         sum  x21i = 188'08,  sum  x1ix2i = 140'80, y  sum  yix1i = 32'063,
                          sum  2      '           sum          '
                           x2i = 219 00,          yix2i = 28 960.

Por tanto

           (        '      '   )
(   '   )
     T        15  42 00   55 00               8 070
S = X  X =    42 188'08  140'80     y  T =   32'063  .
              55 140'80  219'00              28'960

De donde

           (
) (        )   (         )
                1'360  -0'092  -0'282       8'070        -0'160
a = S- 1T =   - 0'092   0'016   0'013      32'063   =     0'149
                '       '       '          '            '
              - 0282   0 013   0067      28960         0 077

El modelo de regresión lineal que se obtiene es:

Gasto = -0'160+ 0'149 .Ingreso +
0'077.T ama~no + error.

A partir de esta ecuación se obtienen las predicciones y los residuos asociados a las observaciones muestrales. Para la primera observación (x1 = 2'1; x2 = 3; y = 0'43) se obtiene

^y1 = -0'160+ 0'149.2'1 + 0'077.3
= 0'3839

e1 = y1- ^y1 = 0'43- 0'3839 = -
0'0461

Razonando así en todos los puntos muestrales se obtiene

|----------------|
|-----------------------| |-Predicciones---|
|-------Residuos|-------| |0'38 | 0'41 |0'33 |   |-0'046 |-0'028
|- 0'024 | |-'--|--'--|-'---|   |--'----|--'----|--'----|
|031-|-057-|0-77-|   |-0-001-|-0-048-|--0011-|
|0'36-|-0'37-|0'51-|   |-0'038-|-0'083-|--0'084-| |0'39 | 1'39
|0'50 |   |-0'075 | 0'104 |  0'032 | |-'--|--'--|-'---|
|--'----|--'----|--'----| -107---035--0-36--
--0-180---0-000----0025--

Calculo de scR

       sum   2   ' scR =    ei = 0
0721

 2    '            ' ^sR = 00060
==> ^sR = 00775

También se puede calcular la scR de la siguiente forma

ete = YtY -^atXtY =  sum yi2 - a0  sum yi - a1  sum yix1i - a2  sum yix2i =
= 5'7733 -(- 0'160) . 8'070 - 0'149 . 32'063 - 0'077 . 28'960
Se calculan los intervalos de confianza de los parámetros del modelo al 90%,
bulletPara la varianza, s2
12.0'0060
   s2 ~ x122
5'2253 <0'072
 s2 < 21'0298
0'0034 < s2 < 0'0138
bulletLa varianza de los estimadores del modelo es

(                        )
                                 1'360  -0'092 - 0'282
Var (a^) = s2(XtX) -1  ~~  0'0060.  - 0'092   0'016   0'013
                                 '       '       '
                               - 0282   0 013   0067

de donde se deduce que

V ar(^a0) = 0'00816 ==> s(^a0) = 0'0903
V ar(^a1) = 0'000099 ==> s(^a1) = 0'0099
V ar(^a2) = 0'00040 ==> s(^a2) = 0'0201
bulletIntervalo de confianza para a0
t12  '
(0 05) . 0'0903 <-0'160 - a 0 < t12  '
(095) . 0'0903
- 0'321 < a 0 < 0'001
bulletIntervalo de confianza para a1 (ingreso)
t12(0'05) . 0'0099 < 0'149 - a 1 < t12(0'95) . 0'0099
0'1314 < a 1 < 0'1666
bulletContrate H0  =_ a1 = 0, “la variable ingreso no influye” (contraste individual de la t)
^d =
0'149--= 15'050 ~ t
 1   0'0099           12

p1 =
0'000 ==> Se Rechaza H0

 

bulletIntervalo de confianza para a2 (tamaño)
t12  '
(005) . 0'0201 < 0'077 - a 2 < t12  '
(095) . 0'0201
0'0412 < a 2 < 0'1128
bulletContrate H0  =_ a2 = 0, “la variable tamaño no influye” (contraste individual de la t)
       ' d^2
= -0077-= 3'831 ~ t12
     0'0201

p  =
0'0012 ==> Se Rechaza H
 2                        0

 

bulletTabla Anova,
       sum         2   ' scG =
(yi- y) = 1 4316

de donde

                  ' scE = scG - scR = 1
3595
 

Tabla ANOVA

Fuentes de Suma de Grados deVarianzas
VariaciónCuadradoslibertad




scE (por el modelo)
1'3595
2
^s e2 = 0'6797




scR (Residual)
0'0721
12
^s R2 = 0'0060




scG (Global)
1'4316
14
^s y2 = 0'1023

 

Con estos datos se obtiene el siguiente contraste conjunto de la F

 ^   ^s2e-  0'6797-     '
' dc = ^s2R = 0'0060 = 11328 ~ F2,12 ==> pc = 0 0000

El contraste conjunto de la F indica claramente la influencia del modelo en la variable respuesta. Por tanto, de los contrastes individuales y del conjunto se deduce la influencia de cada una de las dos variables regresoras y la influencia conjunta del modelo.

bulletAhora se calcula el contraste individual de la F respecto a la variable x2=“tamaño”, contraste que es equivalente al contraste individual de la t. Para ello, se obtiene la regresión de la variable gasto respecto a la variable ingreso,
gasto = - 87'124+ 1'543 ingreso

la tabla ANOVA de este modelo es

Tabla ANOVA

Fuentes de Suma de Grados deVarianzas
VariaciónCuadradoslibertad




scE (ingreso)
1'2716
1
^s e2 = 1'2716




scR (Residual)
0'1600
13
^s R2(1) = 0'0123




scG (Global)
1'4316
14
^s y2 = 0'1022

La variabilidad incremental debida a la variable diámetro es

 /_\ V
E(tama~no) = VE (2)- V E(ingreso) = 1'3595- 1'2716 = 0'0879

este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir la variable tamaño.

Para contrastar la influencia o no de esta variable se utiliza el estadístico

     /_\ V-E-(xi) ^  ----1----
0'0879-    '               ' d =  ^s2R (k)   = 0'0060 = 14 65  (-
F1,12 ==> p = 0 001.

que da el mismo p-valor que en el contraste individual de la t (hay pequeñas diferencias por los resondeos).

Cálculo de los coeficientes de correlación:

bulletEl coeficiente de determinación,
R2 = scE-= 1'3595 = 0'9496 ==> 94'96% de scG.
     scG   1'4316

 

bulletEl coeficiente de correlación múltiple
     V~ ------  ' R =   0'9496 = 0
9745

 

bulletEl coeficiente de determinación corregido por el número de grados de libertad.
        ^s2
0'0060
R2 = 1- ^sR2-= 1 - 0'1023-= 94'13 ==> 94'13%  de scG.
         Y


V~ -'---   ' R =  0 9413 = 0 9702.

 

bulletEl coeficiente de correlación simple entre las variables gasto e ingreso,
                 Cov-(gasto,ingreso)-
' r(gasto,ingreso) = s (gasto)s(ingreso) = 0 9424.

Este coeficiente es una medida de la relación lineal existente entre las variables gasto e ingreso. También se puede calcular a partir del coeficiente de determinación de la siguiente regresión


'      ' gasto = -87 124+ 1 543 ingreso.

La tabla ANOVA del modelo es

Tabla ANOVA

Fuentes de Suma de Grados deVarianzas
VariaciónCuadradoslibertad




scE (ingreso)
1'2716
1
^s e2 = 1'2716




scR (Residual)
0'1600
13
^s R2(1) = 0'0123




scG (Global)
1'4316
14
^s y2 = 0'1022
  2
scE--  1'2716-   '           ' R  =  scG  = 1'4316 = 08882 ==>
R = 0 9424 = r(gasto,ingreso)

 

bulletAnálogamente, el coeficiente de correlación simple entre las variables gasto y tamaño es,
                  Cov (gasto,tama~no) r
(gasto,tama~no) = ------------------= -0'1265
                  s(gasto)s (tama~no)

 

bulletCoeficiente de correlación parcial entre las variables gasto e ingreso.
r2(gasto,ingreso;tama~no) =       t2ingreso t2-----+n---(k+-1)
 ingreso =
--15'0502---
15'0502 + 12 = 0'9496 ==>
r(gasto,ingreso;tama~no) = 0'974.
Otra forma más compleja de calcular este coeficiente es la siguiente: se obtienen las siguientes regresiones y se guardan los residuos,
Gasto = 0'6713 - 0'0363 tamaño + e gasto.tamaño.
Ingreso = 5'5923 - 07615 tamaño + e ingreso.tamaño.
Ahora el coeficiente de correlación parcial entre las variables gasto e ingreso se obtiene como el coeficiente de correlación simple entre las variables egasto.tamaño y eingreso.tamaño
r(gasto,ingreso;tama~no) = r(egasto.tama~no,eingreso.tama~no) =
Cov-(egasto.tama~no,eingreso.tama~no)- s(egasto.tama~no)s
(eingreso.tama~no) = 0'9740,
este coeficiente mide la relación entre las variables gasto e ingreso libres de la influencia de la variable tamaño.

Análogamente se obtiene que


' r(gasto,tama~no;ingreso) = r (egasto.ingreso,e.tama~no.ingreso)
= 0 7412.
 

Estimación de la media condicionada.

“Estimar el gasto medio en alimentación de una familia con unos ingresos de x1 = 3'0 y un tamaño de x2 = 4. Esto es (x = (x ,x ) = (3'0;4))
  h    1  2 ”.

Aplicando el modelo de regresión

^m(3'0;4) = - 0'160+ 0'149.3'0 +
0'077.4 = 0'595.

Se calcula el valor de influencia asociado al dato xh = (x1,x2) = (3'0;4)

 

nhh = xht(XtX)-1x h
= (
)
  1  3'0  4(                        )
    1'360  - 0'092  - 0'282
   -0'092    0'016    0'013
     '       '       '
   -0 282    0013    0067(     )
    1
   3'0

    4 = 0'07649
==> nh = ---1--- 0'07649 = 13'073
La varianza del estimador es
Var(^mh) = ^s2R nhh = 0'00046
==> s (^mh) = 0'0214.

Y un intervalo de confianza para mh al 90%  es

      '         '     '      '
'       '    ' mh  (-  0595 ±t12(095).0 0214 = 0 595± 0 038 =
(0557,0633)

Predicción de una observación.

“La familia Pérez que tiene unos ingresos de x1 = 3'0 y un tamaño de x2 = 4. Esto es (xh = (x1,x2) = (3'0;4)) ¿qué gasto en alimentación tendrá?”.

Aplicando el modelo de regresión estimado

^y(3'0,4) = ^a0 + a^1x1 + ^a2x2 =
0'595.

La varianza de la predicción es

V ar(^yh) = s^ R2(1+
nhh) = 0'0060 .(1+ 0'07649) = 0'0065
==> s(^yh) = 0'0803
Y un intervalo de prdicción al 90% es
     '         '     '       '
'       '    ' yh  (-  0595 ± t12(0 95) .00803 = 0595± 0 143 =
(0452,0 738).

Algunos gráficos de interés que ayudan a resolver el problema son los siguientes:

Gráficos parciales de las componentes

Gráficos de residuos,