A menudo no es suficiente una variable independiente para explicar a la variable dependiente. Un modelo que puede ayudar en este sentido es el que considera que los valores de la variable dependiente Y se pueden expresar en términos de los valores \(x_1, x_2,…, x_k\) de las variables independientes respectivas \(X_1, X_2,…, X_k\) mediante la relación:

\(y= \beta_0 + \beta_1x_1 + \beta_2x_2 +...+ \beta_kx_k + \epsilon\)

en donde \(\epsilon\) es el error aleatorio, y que, como en el caso de la regresión lineal simple, se supone que tiene distribución normal de media 0 y varianza constante \(\sigma^2\).

La estimación de los parámetros del modelo se realiza, como en el caso de la regresión lineal simple, con el método de los mínimos cuadrados, de tal manera que la suma de los cuadrados de los residuos sea minima:

\(SCE=\sum_i^n(y_i-\hat{y})^2\)

El valor de \(MCE=\frac{SCE}{n-(k+1)}\) se toma como el estimador de  \(\sigma^2\).

El coeficiente \(\beta_1\) de cada variable independiente \(X_i\) mide el cambio que se obtiene en la variable dependiente cuando el valor de la variable independiente se cambia en una unidad, manteniendo constantes las otras variables independientes.


Una serie de paquetes estadísticos que permiten la estimación y el análisis de los modelos de regresión lineal han sido elaborados. Entre ellos están: el SAS, el SPSS, el MINITAB, el STATISTICA, el S-PLUS, etcétera.

Ejemplo:

Se desea modelar los gastos de los hogares Y en una ciudad en términos de los ingresos \(X_1\) y el número de miembros en cada hogar, \(X_2\), usando el modelo de regresión lineal múltiple \(y= \beta_0 + \beta_1x_1 + \beta_2x_2 +...+ \beta_kx_k + \epsilon\), donde \(x_1\), \(x_2\) e y son valores de las variables  \(X_1\), \(X_2\) e Y, respectivamente.

Usando el método de mínimos cuadrados se obtienen los estimadores de los coeficientes:

\(\hat{\beta}_0=1075.576\), \(\hat{\beta}_1=0.248\), \(\hat{\beta}_2=415432\), \(\hat{\sigma}^2=(502.59)^2\)

El estimador de la varianza de \(\epsilon\) es \(\hat{\sigma}^2=(502.59)^2\).

El modelo estimado es  \(\hat{y}=1075.576+0.248X_1 + 415432X_2\)

cada coeficiente \(hat{\beta}_j\), para \(j=1,2\) se interpreta como un estimado  del cambio del gasto Y cuando el valor de \(X_j\) se incrementa una unidad y la otra variable se mantiene fija. Así, cuando el ingreso se incrementa en una unidad el gasto se incrementa 0.248 unidades monetarias.

Tabla 1. Datos del ejemplo.

Gastos Ingresos Miembros
4,089.00 5,500.00 3
3,232.00 3,100.00 2
5,173.00 3,300.00 4
4,815.00 5,100.00 5
1,937.00 3,200.00 2
4,143.00 5,600.00 2
2,804.00 3,800.00 1
3,421.00 4,100.00 2
4,837.00 6,700.00 4
4,183.00 5,200.00 3
4,281.00 2,600.00 3
4,292.00 4,900.00 4
2,550.00 2,800.00 1
2,587.00 3,400.00 2
4,287.00 6,600.00 3
5,038.00 6,400.00 4
4,485.00 4,300.00 6
2,521.00 2,200.00 2
3,068.00 4,500.00 1
4,244.00 3,800.00 5
5,751.00 6,300.00 6
3,696.00 2,200.00 3
5,374.00 5,600.00 7
3,093.00 4,300.00  2

 

Descomposición de la varianza



Como en el caso de la regresión lineal simple, la suma de cuadrados total SCT se puede descomponer de la siguiente manera:

\(SCT=SCR+SCE\), en donde, como se recuerda:

\(SCT=\sum(y_i-\overline{y})^2\)

\(SCE=\sum(y_i-\hat{y}_i)^2\)

\(SCR=\sum(\hat{y}_i-\overline{y})^2\)

La proporción SCR/SCT, que se denota con \(R^2\) y es igual a:

\(R^2=\frac{SCR}{SCT}=\frac{SCT-SCE}{SCT}=1-\frac{SCE}{SCT}\)

representa la proporción de la variación total de los gastos en la muestra que es explicada por los ingresos y el número de miembros. El valor \(R^2\) se llama coeficiente de determinación.

El coeficiente de determinación tiene valores entre 0 y 1, y su interpretación es como en la regresión lineal simple.

Para el ejemplo relativo al gasto, el valor de R^2 es igual a 0.778, indicando que el 77.8% de la variación de los valores muestrales de la variable Y es explicado en términos de las variables independientes.

 
(El coeficiente de determinación aumenta o permanece igual a medida que se añaden variables independientes al modelo. Por ello, y en forma alternativa al coeficiente de determinación \(R^2\), se usa el coeficiente de determinación corregido, que se calcula con:

\(R_a^2=1-\frac{n-1}{n-(k+1)}(1-R^2)\)

Este coeficiente toma el valor 1 cuando el ajuste lineal es perfecto pero puede ser negativo cuando el ajuste es deficiente.
br

Prueba de hipótesis



El valor de R 2 es una medida que permite analizar la adecuación del modelo a los datos de la muestra; una manera de medir si el modelo es adecuado para predecir los valores de Y, en términos de los valores de las variables independientes \(X_1,X_2,...,X_k\) y a nivel de toda la población, es mediante el contraste de las hipótesis:

\(H_0: \beta_1=\beta_2=...=\beta_k=0\)

\(H_1:  Al menos uno de \beta_j diferente de 0\)

El rechazo de la hipótesis nula indicará que existe una relación significativa entre la variable dependiente y todas las variables independientes, y que al menos una de las variables independientes contribuye significativamente en la predicción. Es decir que el modelo es mejor para la predicción que el simple promedio de los valores de Y.

La prueba de hipótesis se basa en la “fórmula de descomposición de la varianza”, que indica, como en el caso de la regresión lineal simple, que la variabilidad de los valores de Y, SCT, puede descomponerse en la suma de cuadrados según la regresión, SCR, más la suma de cuadrados de los errores, SCE:

\(SCT=SCR+SCE\)

El modelo es adecuado si la suma SCR es significativamente mayor que SCE.

El estadístico de prueba para esta situación es \(F=\frac{SCR/k}{SCE/(n-(k+1))}\)

Este estadístico corresponde a una variable aleatoria con distribución \(F\) con k grados de libertad para el numerador y \((n − (k + 1))\) grados de libertad para el denominador.

La hipótesis nula se rechaza si el valor del estadístico de prueba está en la zona de rechazo, correspondiente al nivel de significación de la prueba.

En la Tabla 2 se presentan los valores de \(F\) y su significación o valor p.

Tabla 2. ANOVA

Modelo   Suma de cuadrados gl Media cuadrática F Sig.
1 Regresión 18568613 2 9284306.6 36.754 .000
  Residual 5304718.7 21 252605.652    
  Total 28373332 23      

 

El valor del estadístico \(F\) es 36.754 y el correspondiente valor  p es 0.000 (la probabilidad de equivocarse al rechazar la hipótesis nula es 0.000). La hipótesis nula:

\(H_0: \beta_1=\beta_2=0\)

se rechaza (frente a la hipótesis alternativa: alguno de los coeficientes es diferente de 0), al nivel de significación 0.05. El modelo es adecuado a nivel de población.
br

Pruebas de hipotesis individuales



La prueba anterior no indica si determinado coeficiente es significativamente diferente de 0. Para analizar si determinada variable \(X_j\) contribuye o no significativamente en el valor promedio de Y se realiza una prueba de carácter “individual”, contrastando la hipótesis nula \(H_0 : \beta_j = 0\) versus la hipótesis alternativa \(H_1 : \beta_j ≠ 0\). El valor del estadístico de prueba se indica en la columna t de la Tabla 6. Estas pruebas permiten al investigador eliminar o incluir otras variables que tal vez sean de utilidad para explicar la variable dependiente. El estadístico que se usa en este caso se basa en la distribución \(t student\) con n − k − 1 grados de libertad.

Para el ejemplo anterior, y usando los resultados de la tabla de los “coeficientes”, se puede indicar que la hipótesis nula \(H_0 : \beta_1 = 0\), que corresponde al “ingreso”, se rechaza frente a la hipótesis alternativa \(H1 : \beta_1 ≠ 0\), al nivel de significación 0.05. De igual manera se tiene para el coeficiente de la variable “miembros”.

Tabla 3. Estimación de los coeficientes.

  Coeficientes no estandarizados Coeficientes  estandarizados  
Modelo   \(\beta\) Error típ. Beta t Sig.
 1 (Constante) 1.075.576 370.797   2.901 0.009
  Ingreso 0.248 0.083 0.340 2.975 0.007
  Miembros 415.432 69.737 0.680 5.957 0.000

 

Analisis de los residuos, detección de outliers y medias influenciales



Los supuestos establecidos para el modelo de regresión lineal múltiple fueron los mismos que se indicaron para el modelo de regresión lineal simple; la comprobación de estas asunciones se realiza de igual modo que para este modelo.

El análisis de los residuales puede ayudar, algunas veces, a la detección de observaciones atípicas, que están fuera del patrón del resto de los datos. Si estas observaciones perturban la forma del modelo, se les llama observaciones influenciales. Existen índices, como la medida de la distancia de Cook, que ayudan en la detección de estos puntos.

Multicolinealidad



Si entre dos o más variables independientes de un modelo de regresión lineal existe una dependencia lineal se dice que existe multicolinealidad entre las variables.