Modelos de regresión polinomiales

En muchas situaciones una respuesta Y depende de una variable independiente X, y de algunas de sus potencias. En tal caso los valores y pueden expresarse como:


\(y= \beta_0 + \beta_1x + \beta_2x^2 +...+ \beta_kx^k + \epsilon\)

donde k es un entero positivo, \(\beta_0\), \(\beta_1\),..., \(\beta_k\) son parámetros a estimar y \(\epsilon\) representa un valor aleatorio con las mismas asunciones del modelo general.

Casos particulares de estos modelos son los siguientes.

El modelo de primer orden en x:  \(y= \beta_0 + \beta_1x + \epsilon\), k=1. Este modelo corresponde al modelo de regresión lineal simple.

El modelo de segundo orden en x:  \(y= \beta_0 + \beta_1x + \beta_2x^2+ \epsilon\), k=2. Este modelo ajusta puntos que aproximadamente se desarrollan alrededor de una parábola.

La construcción del diagrama de dispersión puede ayudar en la elección del modelo que podría ajustar a los datos. Una regla práctica indica que el gráfico podría corresponder a un polinomio de orden k si la curva ajustada tiene k − 1 puntos, en donde existe un máximo o un mínimo local. Si el gráfico de la curva suavizada tiene dos puntos en donde hay un máximo o un mínimo local, entonces podría corresponder a un polinomio de tercer orden.

Ejemplo:

Usando los siguientes datos,ajustar un polinomio adecuado.

Tabla 1. Datos
X 1 2 3 4 5 6 7 8 9 10
Y 20.60 30.80 55.00 71.40 97.30 131.80 153.3 197.3 238.70 291.70

El diagrama de dispersión de los puntos sugiere un polinomio de segundo orden como modelo:

\(y= \beta_0 + \beta_1x + \beta_2x^2+ \epsilon\)

Escribiendo \(x_1=x\) y \(x_2=x^2\), se tiene un modelo de regresión lineal múltiple.

Figura 1. Ajuste no lineal

ejemplo 1. ajuste no lineal

A partir de los datos se tienen los siguientes resultados.

Tabla 2. Índice de ajuste 

ejemplo1. indice de ajuste

La curva ajusta casi perfectamente a los datos (\(R^2 = 0.999\)).

Tabla 3. Anova

ejemplo 1. Anova

Los resultados que aparecen en la tabla Anova indican que el modelo es adecuado.

Tabla 4. Estimación de los coeficientes

ejemplo1. estimación de los coeficientes

Los estimadores de los coeficientes son:

\(\beta_0=12.643\), \(\beta_1=6.297\) y \(\beta_2=2.125\)

Los tres coeficientes son significativamente diferentes de 0.

El modelo estimado es \(y=12.643+6.297x+2.125x^2\) 

Modelos de regresión con variables independientes cualitativas

Cuando las variables independientes son cualitativas o categóricas, como sucede en muchas de las investigaciones sociales, y se desea incorporarlas en el análisis de regresión, es necesario introducir las variables llamadas variables mudas o ficticias, como en el siguiente caso.

Ejemplo:  

Los datos siguientes corresponden a la presión sanguínea (Y), a la edad (\(X_1\)) y al sexo de las 18 personas que conforman la muestra. ¿Cómo influye la edad y el sexo de una persona en su presión sanguínea?

Tabla 5. Datos

Edad (X1) Presión (Y) Sexo X2
25.00 112.00 H 0.00
25.00 130.00 H 0.00
42.00 138.00 H 0.00
55.00 160.00 H 0.00
30.00 128.00 H 0.00
40.00 148.00 H 0.00
66.00 165.00 H 0.00
60.00 160.00 H 0.00
38.00 140.00 H 0.00
28.00 130.00 M 1.00
24.00 120.00 M 1.00
60.00 120.00 M 1.00
33.00 128.00 M 1.00
40.00 120.00 M 1.00
70.00 130.00 M 1.00
43.00 120.00 M 1.00
60.00 125.00 M 1.00
27.00 120.00 M 1.00

Codificando la variable "sexo" se tiene la variable \(x_2=1\), si mujer (m) y \(X_2=0\), si hombre (h).

Esta variable obtenida a partir de las dos categorías de la variable "sexo" se llama variable ficticia o muda. En el diagrama de dispersión de las variables “edad” y “presión” se observa que se puede ajustar dos rectas al conjunto de puntos del diagrama. Una para los hombres y otra para las mujeres.

 Figura 2. Presión. edad y sexo 

ejemplo 2 presion edad sexo

Comenzando por ajustar un modelo de la forma \(Y= \beta_0 + \beta_1x + \beta_2x2+ \epsilon\), resulta que \(R=0.797\), \(R^2=0.635\). Los coeficientes del modelo aparecen en la Tabla 6.

Tabla 6. Estimación de los coeficientes

Ejemplo 2. Estimación de coeficientes

El modelo estimado es \(y=120.276+0.521x_1-18898x_2\).

Observamos en el gráfico de dispersión que las rectas de ajuste para hombres y para mujeres no crecen de igual manera. En el caso de los hombres, la recta de ajuste crece más rápido que para el caso de las mujeres. Sin embargo, el modelo estimado no refleja esta situación, pues, según este modelo, para hombres y mujeres las rectas de ajuste tienen la misma pendiente, como puede observarse a continuación.

Para los hombres: \(y=120.276+0.521x_1\) (Pendiente = 0.521)

Para las mujeres: \(y=(120.276-18.898)+0.521x_1\) (Pendiente = 0.521)

Un modelo que mejor refleja la situación es el siguiente:

\(y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_1x_2+\epsilon\) 

El término \(x_1x_2\) que ahora se agrega se llama término de interacción.

Para este modelo, \(R=0.954\) y \(R^2=0.983\). Los estimadores de los coeficientes aparecen en la tabla 7.

Tabla 7. Estimación de los coeficientes

ejemplo2. estimación de los coeficientes

Se observa ahora que el producto \(x_1x_2\), considerado como variable independiente, es significativo, ayuda a explicar la variabilidad de la presión. El estimador de su coeficiente es \(\hat{\beta}_3=-1.031\). El modelo estimado es \(y=95.860+1.098x_1+25.299x_2-1.039x_1x_2\).

A partir de este modelo se obtiene que:

Para los hombres \((x_2 = 0)\), la recta de ajuste tiene pendiente 1.098.
Para las mujeres \((x_2 = 1)\), la recta de ajuste tiene pendiente 1.098 − 1.039 = 0.059.

Como resultado se tiene que el modelo con interacción es el que mejor ajusta a los datos.


Por lo general, es preferible comenzar con la estimación del modelo de la forma: 

\(y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_1x_2\)

estimarlo y luego probar la hipótesis nula \(H_0: \beta_3=0\). Si esta hipotesis no se rechaza, simplemente estimamos el modelo \(E(Y \mid x_1,x_2)=\beta_0+\beta_1x_1+\beta_2x_2\).