Práctica 5.1. Análisis de problemas de regresión lineal múltiple con ordenador.

Problema 5.1.

“Los datos del fichero Problema-5-1 son relativos a diferentes variables de coches. Se pide,

  1. Ajustar un modelo de regresión múltiple, siendo la variable respuesta “millas por galón” (inversa del consumo) y las variables regresoras: precio, peso y desplazamiento.
  2. ¿Son todas las variables significativas (contraste invidual de la t)?
  3. ¿Cuál es el coeficiente de determinación? y ¿cuál el coeficiente de correlación múltiple?
  4. Tabla ANOVA. ¿Qué conclusiones se obtienen de esta tabla (contraste conjunto de la F)? ¿qué indican los contrastes individuales de la F? ¿estos contrastes tienen alguna relación con los contrastes inviduales de la t?
  5. Analizar los residuos utilizando un estudio descriptivo de los mismos y los gráficos de residuos ¿se verifican las hipótesis del modelo (homocedasticidad, normalidad)? ¿mejorará el modelo si se introduce la variable “aceleración” en el modelo?
  6. ¿Qué indican los gráficos de efectos de las componentes?
  7. Analizar la hipótesis de multicolinealidad.
  8. Analizar la hipótesis de independencia.
  9. Repetir este mismo problema pero utilizando solamente los datos relativos a coches USA, ¿Cambian las conclusiones anteriores.”

Datos del problema [ASCII] [spss-10] [sgplus-5]  

Desarrollo del Problema 5.1.

Utilizando el Statgraphics se utiliza el siguiente análisis que es muy completo y proporciona mucha información:

DEPENDENCIA> REGRESION MULTIPLE

En el aparado F indica que el modelo es significativo. En este mismo apartado se obtienen los coeficientes de determinación y correlación y el contraste de Durbin-Watson que indica que la primera autocorrelación de los residuos es cero.

En el apartado REPORTS se pueden visualizar los valores de las predicciones y de los residuos. Si se quieren calcular predicciones para un valor de x se debe introducir este vector como un dato muestral (sin Y ). En UNUSUAL RESIDUALS se observa que las observaciones 145 y 147 presentan residuos altos y en INFLUENTIAL POINTS se pueden estudiar las observaciones que pueden ser influyentes.

Este análisis proporciona muchos gráficos de interés, los gráficos de efectos de las componentes indican la importancia de las tres variables regresoras y los diferentes gráficos de residuos permiten obtener conclusiones acerca de las hipótesis del modelo.

La hipótesis de multicolinealidad puede estudiarse en el apartado de

La matriz de correlaciones de las variables regresoras R, puede calcularse en el análisis

DESCRIPCION> DATOS NUMERICOS> ANALISIS MULTIDIMENSIONAL 

este apartado también se obtiene la matriz de correlaciones parciales y un gráfico matricial. En todo caso será conveniente calcular la diagonal de R-1 y el índice de condicionamiento de R.

Una vez que se han guardado las predicciones y los residuos estandarizados y/o estudentizados se pueden estudiar las hipótesis de normalidad, homocedasticidad e independencia.

Utilizando los residuos estandarizados la hipótesis de normalidad se estudia en el análisis:

descriPCION>distribuCionES >AJUSTE DE DISTRIBUCIONES (DATOS NO CENSURADOS)

También es de interés el gráfico de normalidad

GRAFICOS > GRAFICOS EXPLORATORIOS> GRAFICO PROBABILISTICO

La hipótesis de homocedasticidad se puede observar en el gráfico de residuos estandarizados frente a predicciones. Un estudia mayor sobre esta hipótesis se puede hacer ordenando el fichero según las predicciones de menor a mayor y hacer clases (cada una de tamaño aproximado a diez) y utilizar la herramienta dada en los modelos de diseño de experimentos para estudiar la homocedasticidad siendo ahora la variable dependiente los residuos estandarizados y el factor las clases creadas. El ajuste de las desviaciones típicas de los residuos estandarizados en cada clase frente a la media de las predicciones es útil para estudiar esta hipótesis e indica la forma de transformar el modelo si hay indicios de heterocedasticidad.

La hipótesis de independecia se estudia en el análisis

AVANZADO >ANALISIS SERIES TEMPORALES>METODOS DESCRIPTIVOS

Problema 5.2.

Con los datos del fichero problema-5-2 (cardata) estudiar la regresión de la variable respuesta “millas por galón” (inversa del consumo) respecto a las variables regresoras: precio, peso, desplazamiento, potencia (caballos de vapor) aceleración y número de cilindros.

  1. Utilizando el algoritmo de “regresión paso a paso” obtener las variables regresoras que deben entrar.
  2. Utilizando diferentes medidas indicar el mejor modelo de regresión de todos los posibles
  3. Trabajando con el mejor modelo de regresión lineal seleccionado en el apartado anterior ¿los estimadores contraídos proporcionan mejores resultados que los estimadores pormínimos cuadrados?
  4. Introduciendo algún término cuadrático ¿se puede mejorar el modelo de regresión?
  5. Estudiar el modelo de regresión lineal simple de la variable respuesta “millas por galón” respecto al “peso” pero teniendo en cuenta el origen (variables atributo o dumping) ”.
Desarrollo del Problema 5.2.

La regresión “paso a paso” se estudia en el análisis

DEPENDENCIA> regresion MULTIPLE

utilizando la opción “analysis options”.

Para seleccionar un modelo de regresión utilizar el análisis

AVANZADO> REGRESION AVANZADA>SeLECION DEL MODELO DE REgresion

El estudio de la regresión contraída (ridge regression) puede hacerse en

AVANZADO>aREGRESION AVANZADA>COMPARACION CON RECTAS DE REGRESION

El apartado 5 es un problema de regresión lineal con una variable regresora atributo, este problema se puede resolver en el siguiente análisis

AVANZADO>regresion AVANZADA>comparACION DE RECTAS DE regresion  

Datos del problema [ASCII] [spss-10] [sgplus-5]  

Problema 5.3. (Regresion No Lineal)

 “En el fichero Problema-5-3 se presentan 44 datos con dos variables relativas a la cantidad de cloro presente en unas muestras de agua sometidas a un proceso químico en relación con el tiempo transcurrido, medido en semanas.

  1. Dibujar el gráfico de la nube de observaciones y calcular el ajuste lineal (o linealizable) que explique la variable Y =“Cloro” como función de la variable X =“Semanas” (tiempo).
  2. Utilizando el algoritmo iterativo de Kalman ajustar por mínimos cuadrados la siguiente función de regresión
    Y =  a1 +
(0'49- a1)exp (- a2(X - 8)),

    siendo los valores iniciales de los parámetros: a1 = 0'2 y a2 = 0'3, estos valores son necesarios para comenzar el algoritmo. Representar la nube muestral y la función de regresión no lineal estimada. ¿Es bueno el ajuste obtenido?”

Datos del problema [ASCII] [spss-10] [sgplus-5]

Desarrollo del Problema 5.3.

Los problemas de regresión no lineal se estudian en el siguiente análisis

aVANZADO> regresioN AVANZADA>regresion NO LINEAL