¿Cómo mejoramos las posiciones?

Vamos a comprobar las hipótesis que hemos indicado sobre la relación entre la relación de las posiciones de nuestros y nuestras ciclistas. ¿Se cumplirá la relación que hemos establecido?

Para comprobarlo vamos a trabajar con la recta de regresión, es decir, la recta que más se ajusta a nuestra nube de puntos.

La recta de regresión

Ahora que ya tenemos la nube de puntos y conocemos el grado de correlación entre las dos variables X e Y podemos preguntarnos por la recta que más se ajusta a la nube de puntos.

Esta recta se llama recta de regresión. La existencia de las dos variables nos permite calcular la recta de regresión de Y sobre X y la recta de regresión X sobre Y.

Recta de regresión de Y sobre X: $$y-\bar{y} = \displaystyle \frac{S_{xy}}{{\sigma_x}^2} (x-\bar{x})$$

Nos permite predecir el valor de la variable Y en función de los valores de la variable X.

Recta de regresión de Y sobre X: $$x-\bar{x} = \displaystyle \frac{S_{xy}}{{\sigma_y}^2} (y-\bar{y})$$

Nos permite predecir el valor de la variable X en función de los valores de la variable Y.

¿De dónde viene esa fórmula?

Método de los mínimos cuadrados

Al ser un modelo lineal buscamos una recta $y= a x + b$ que modelice el conjunto de datos, de forma que introduciendo un valor de la variable X obtengamos el valor correspondiente de Y.

La realidad es que, salvo casos excepcionales, donde la correlación es lineal, es decir, los puntos están alineados y por tanto ya existe una recta que modeliza las variables, el resto de ocasiones el modelo será:

$$ y_i= a x_i + b + \epsilon_i$$

Donde $\epsilon_i$ será la diferencia entre el valor verdadero de $y_i$ y el valor calculado con el modelo $\hat{y_i}=a x_i + b$, es decir, $\epsilon_i = y_i - \hat{y_i}$.

Se trata, por tanto, de encontrar $a$ y $b$ de forma que esos errores sean lo más pequeños posibles.

Si sumamos todos esos errores:

$$\epsilon_1 + \epsilon_2 + \cdots \epsilon_n = y_1 - \hat{y_1} + y_2 - \hat{y_2} + \cdots + y_n - \hat{y_n}$$

$$\sum_{i=1}^n \epsilon_i=\sum_{i=1}^n y_i-\hat{y}_i $$

Al haber una resta, la diferencia $y_i-\hat{y}_i$ a veces será positiva y a veces será negativa. Para evitar esto, elevamos al cuadrado. Este paso es el que da nombre al método de los mínimos cuadrados.

$$ \sum_{i=1}^n \epsilon_i^2=\sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2$$

Sustituyendo ahora, $\hat{y}_i$ por su valor $a x_i + b$ tendremos que:

$$ \sum_{i=1}^n \epsilon_i^2=\sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2=\sum_{i=1}^n\left(y_i-b-a x_i\right)^2 $$

Utilizando matemáticas avanzadas obtenemos que:

$ a = \displaystyle \frac{S_{xy}}{{\sigma_x}^2} $ y $ b = \bar{y} - a \bar{x}$.

Por tanto, la recta que mejor se ajusta a los datos es:

$$ y = \displaystyle \frac{S_{xy}}{{\sigma_x}^2} x + \bar{y} - \displaystyle \frac{S_{xy}}{{\sigma_x}^2} \bar{x}$$

Esta es la denominada recta de regresión de Y sobre X.

De igual forma podemos obtener la recta de regresión de X sobre Y:

$$ x = \displaystyle \frac{S_{xy}}{{\sigma_y}^2} y + \bar{x} - \displaystyle \frac{S_{xy}}{{\sigma_y}^2} \bar{y}$$

Recta de regresión y coeficiente de correlación

Pulsa el botón «Animar r» y observa cómo se comporta la recta con los puntos según va variando r.

https://www.geogebra.org/m/svmfnfgy (Ventana nueva)

Jos%E9%20Luis%20Mu%F1oz%20Casado,https%3A//www.geogebra.org/m/svmfnfgy,Recta%20de%20regresi%F3n,1,Autor%EDa

(applet basado en un trabajo de Juan Carlos Ballabriga)

Recta de regresión y valor estimado

En esta otra escena, vamos a colocar los puntos y determinar, en primer lugar, cuál sería la recta de regresión, buscando que las sumas de las áreas sea la mínima posible. Esas áreas simbolizan las sumas de las distancias al cuadrado de los puntos a la recta de regresión.

En la tabla de la derecha se ponen las coordenadas de los puntos y, una vez dispuestos, antes de marcar la casilla «Ver Recta de regresión», se puede calcular cuál puede ser la recta de regresión, activando la casilla correspondiente y moviendo los puntos que aparecen con la recta azul.

Una vez hecho esto, comprobamos que la recta de regresión es la que da la mínima suma de distancias al cuadrado.

Activando la casilla «Previsión a partir de X» trabajamos la idea de valor estimado de Y a partir de determinados valores de X. Moviendo los puntos, vemos que tanto la recta de regresión, como la estimación que se espera para un valor concreto de X, cambia, al igual que el coeficiente de correlación, con lo que se trabaja la fiabilidad o no de ese valor estimado. No es lo mismo que el valor de X se dé entre los que se disponen en los datos o fuera de él.

https://www.geogebra.org/m/gsjucg83 (Ventana nueva)

Jos%E9%20Luis%20Mu%F1oz%20Casado,https%3A//www.geogebra.org/m/gsjucg83,Recta%20de%20Regresi%F3n,1,Autor%EDa

(applet basado en un trabajo de José Manuel Infante Infante)

La recta ciclista

Ahora que ya conoces y has practicado con la recta de regresión, vamos a aplicarlo en el caso de nuestros participantes del club PedalMath.

Por parejas, vamos a realizar tres actividades:

Actividad 1

Utilizando la primera escena, analiza lo que ocurre con los puntos y la recta de regresión cuando van variando estos puntos.

Coloca el deslizador número de puntos en una posición fija.
Pulsa el botón «Anima r».
Activa la casilla «Ver distancias».
Observa lo que ocurre.

Completa las cuestiones de esta actividad que aparecen en la «Ficha de trabajo» de esta tarea (Anexo VIII).

Actividad 2

Utilizando la segunda escena GeoGebra.

Coloca en la segunda escena los datos de los y las ciclistas del club PedalMath.

	Manuel Alba	Carmen Bermeo	Yanira Borrel	Carlos Collado	Laura Costum	Samuel Guti	Marcos Higuero	África Iglesias	Iván Pérez	Santi Torres
Montaña	2	3	4	7	10	12	17	18	20	22
Contrareloj	1	9	6	31	29	20	101	50	83	37

Contesta a las cuestiones de la Ficha de trabajo.

Actividad 3

Para finalizar esta tarea, trasladamos a la Ficha de trabajo (Anexo VIII) los cálculos realizados en la tarea 5 y comprobamos que, efectivamente, la ecuación de la recta de regresión coincide con la que da la escena de GeoGebra, sustituyendo los valores en la fórmula y haciendo las operaciones.

Glosario

Recta de regresión

En estadística, un modelo lineal se refiere a una técnica para modelar la relación entre una variable dependiente (y) y una (o varias variables independientes) (x). El modelo lineal estadístico asume que la relación entre las variables es lineal, es decir, que puede ser representada por una recta en un plano cartesiano.

Un ejemplo de modelo lineal estadístico es la regresión lineal simple, en la cual se busca encontrar la recta que mejor se ajuste a los datos para representar la relación entre dos variables. La recta se define por una ecuación de la forma $y = a \cdot x + b $, donde «a» es la pendiente y «b» es la ordenada al origen.

La recta de regresión de la variable Y sobre la variable X tiene la siguiente expresión

$$ y - \bar{y} = \displaystyle \frac{ \sigma_{xy}}{ \sigma_x^2} (x - \bar{x}) $$

donde:

- $\bar{x}$ es la media aritmética de la variable x.
- $\bar{y}$ es la media aritmética de la variable y.
- $\sigma_{xy}$ es la covarianza.
- $\sigma_{x}$ es la desviación típica de la variable.

Recursos y evaluación de los aprendizajes

Recursos

Escena GeoGebra. Recta de regresión 1
Escena GeoGebra. Recta de regresión 2
Anexo VIII. Ficha de trabajo conjunto. (odt (odt - 0,26 MB)/ pdf (pdf - 0,36 MB))

Productos evaluables

Investigación de conjeturas sobre el valor del coeficiente de correlación.
Representación y obtención de la recta de regresión.
Exposición de conclusiones y conjeturas sobre la recta de regresión.

Instrumentos y técnicas de evaluación

Anexo IX. Rúbrica. Tarea 6. (odt (odt - 0,25 MB)/ pdf (pdf - 0,68 MB))

Obra publicada con Licencia Creative Commons Reconocimiento Compartir igual 4.0