6.8 Coeficiente de determinación. Coeficiente de correlación.

Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinación, definido como sigue

            sum n      2
 2   scE    i=1 (y^i- y)
R =  scG--=  sum n------2-
              (yi- y)
           i=1
(6.15)
o bien
        scR      n - 2 ^s2 R2 = 1
-----= 1- ----- -R2-
        scG      n - 1 ^sY

Como scE < scG, se verifica que 0 < R2 < 1.

El coeficiente de determinación mide la proporción de variabilidad total de la variable dependiente (Y ) respecto a su media que es explicada por el modelo de regresión. Es usual expresar esta medida en tanto por ciento, multiplicándola por cien.

Por otra parte, teniendo en cuenta que y^ i -y = ^a1(xi- x), se se obtiene

      s2 R2 = -2XY2
     sX sY
(6.16)
Dadas dos variables aleatorias cualesquiera X e Y , una medida de la relación lineal que hay entre ambas variables es el coeficiente de correlación definido por

     Cov(X, Y) r = -----------
    s (X)  s(Y)
(6.17)
donde s(X) representa la desviación típica de la variable X (análogamente para s(Y )). Un buen estimador de este parámetro es el coeficiente de correlación lineal muestral (o coeficiente de correlación de Pearson), definido por

    sXY--            V~ -2- r = sX
sY = signo(^a1) R .
(6.18)
Por tanto, r  (- [-1,1]. Este coeficiente es una buena medida de la bondad del ajuste de la recta de regresión. Evidentemente, existe una estrecha relación entre r y  ^a1 aunque estos estimadores proporcionan diferentes interpretaciones del modelo:

* r es una medida de la relación lineal entre las variables X e Y.

* a^1 mide el cambio producido en la variable Y al realizarse un cambio de una unidad en la variable X.

De las definiciones anteriores se deduce que:

s   = 0 <==> ^a = 0
<==> r = 0.
 XY        1

Es importante estudiar si r es significativo (distinto de cero) ya que ello implica que el modelo de regresión lineal es significativo. Desafortunadamente la distribución de r es complicada pero para tamaños muestrales mayores que 30 su desviación típica es s(r)  -~ 1/ V~ n, y puede utilizarse la siguiente regla

      2 |r| >  V~ n  ==>   r
es significativo (con a = 0'05)

En la interpretación del coeficiente de correlación se debe tener en cuenta que:

· r = ±1 indica una relación lineal exacta positiva (creciente) o negativa (decreciente),

· r = 0 indica la no existencia de relación lineal estocástica, pero no indica independencia de las variables ya que puede existir una relación no lineal incluso exacta,

· valores intermedios de r (0 < r < 1 ó -1 < r < 0) indican la existencia de una relación lineal estocástica, más fuerte cuanto más próximo a +1 (ó -1) sea el valor de r.

Para poder interpretar con mayor facilidad el coeficiente de correlación muestral se exponen varias nubes de observaciones y el ajuste lineal obtenido:

Figura 6.7. Existe una dependencia funcional lineal, las observaciones están sobre la recta de regresión. r = R2 = 1, recta de regresión: y = x.

Graphic: fig6-7  

Figura 6.7. Dependencia funcional lineal.

Figura 6.8. La relación lineal entre las variables es muy pequeña y no parece que exista otro tipo de relación entre ellas, la nube de puntos indica que las variables son “casi” independientes.

r = 0'192, R2 = 0'037, recta de regresión: y = 6'317 + 0'086x.

Contraste de regresión: F^R = 0'687  (- F1,18 ==> p - valor = 0'418. Se acepta la no influencia de la variable regresora en Y.

Graphic: fig6-8  

Figura 6.8. Observaciones “casi”independientes.

Figura 6.9. Existe una dependencia funcional entre las observaciones pero no de tipo lineal, por tanto la correlación es muy pequeña

r = 0'391, R2 = 0'153, recta de regresión: y = 32'534 - 1'889x.

Contraste de regresión: F^R = 3'252  (- F1,18 ==> p-valor = 0'088. Se acepta que no existe relación lineal con a = 0'05. En base a la Figura 6.6. se debe de hacer un ajuste del tipo parabólico Y = a0 + a1x + a2x2.

Graphic: fig6-9  

    Figura 6.9. Existe una relación cuadrática.

Figura 6.10. La nube de datos se ajusta razonablemente a una recta con pendiente positiva.

r = 0'641, R2 = 0'410, recta de regresión: y = -3' 963 + -1'749x.

Contraste de regresión: F^R = 12'522  (- F1,18 ==> p - valor = 0'002. Se rechaza la no influencia lineal de la variable x.

Graphic: fig6-10  

Figura 6.10. Relación estocástica lineal.

Figura 6.11. Existe una fuerte dependencia lineal negativa entre las dos variables y la correlación es muy alta (próxima a 1).

r = 0'924, R2 = 0'846, recta de regresión: y = -2'528 - 2'267x

Contraste de regresión: F^R = 105'193  (- F1,18 ==> p - valor = 0'000. Se acepta la existencia de una relación lineal.

Graphic: fig6-11  

Figura 6.11. Fuerte relación estocástica lineal.