Saltar la navegación

Necesitamos más datos

Parece que la correlación existente entre las posiciones en las etapas de contrarreloj y en las de montaña es más bien moderada ya que el valor de r es cercano a 0.75, pero no hay una seguridad total de que el valor obtenido de ese coeficiente de correlación sea correcto. 

Cuantos más datos tengamos, más exacta y conclusiva es la información, pero en la escena de la actividad anterior encontramos una serie de limitaciones:

  • Solo se dispone de 10 puntos para mover, que se corresponden con los 10 datos. ¿Qué pasaría si de pronto tenemos 10 ciclistas más? Pues que con 20 datos no podríamos calcular el valor del coeficiente de correlación con esa escena.
  • Existe cierta dificultad para situar los puntos que nos dan los datos en algunos casos en los que hay parejas con valores altos. Además, si nos moviésemos en otro contexto y hubiese valores decimales, sería casi imposible colocarlos de forma exacta.

Por tanto, es necesario comprobar la relación entre variables con herramientas más eficaces y que nos den mayor fiabilidad.

Partiendo de nuestros datos, vamos a comprobar que, efectivamente, el valor del coeficiente de correlación es el que nos ha salido anteriormente.

Recuerda

  • La  variable X representa la posición ocupada en la etapa de montaña.
  • La variable Y representa la posición ocupada en la etapa contrarreloj.

Distribuciones marginales

Empezamos calculando los parámetros de las distribuciones marginales de X e Y.

Para cada una de ellas, calcularemos la media $\bar{x}$ y la desviación típica $\sigma$, utilizando la hoja de cálculo y las funciones estadísticas que calculan la media de una serie de datos y la desviación típica.

Consulta el glosario al final de la página.

¿Qué tengo que calcular?

  1. Abre un archivo de hoja de cálculo y copia la tabla con los datos de los y las 10 ciclistas del equipo PedalMath.
  2. Observa el siguiente vídeo y calcula la media y la desviación típica de X e Y utilizando las funciones estadísticas de la hoja de cálculo.
Elaboración propia. Cálculo de la desviación típica con hoja de cálculo (CC BY-SA)



Consulta el glosario al final de la página.

Covarianza

Antes del coeficiente de correlación, se necesita un nuevo parámetro llamado «covarianza» que se expresa $S_{xy}$.  Este es un primer parámetro conjunto de las dos variables.

¿Cómo se calcula? Podemos obtener su valor desarrollando la fórmula y haciendo los cálculos o podemos utilizar, nuevamente, la hoja de cálculo, porque tiene una función con la que obtenemos su valor directamente.

Ver glosario

¿Qué tengo que calcular?

Esta vez vamos a calcular la covarianza, pero haremos el cálculo de las dos formas propuestas para comprobar que ambos resultados coinciden.

Usando la fórmula

En este vídeo puedes aprender cómo calcular la covarianza mediante la fórmula; para ello, es necesario prepararse los datos.

Elaboración propia. Cálculo de la covarianza (CC BY-SA)

Usando el comando COVAR

En este vídeo puedes aprender como calcular la covarianza directamente usando el comando COVAR de la hoja de cálculo:

Elaboración propia. Cálculo de la covarianza con el comando COVAR (CC BY-SA)

Coeficiente de correlación

Ya disponemos de todo lo necesario para poder calcular el coeficiente de correlación, así que llega el momento de comprobar que el coeficiente de correlación de nuestros ciclistas coincide con el de la actividad 2 de la sesión anterior.

 Al igual que con la covarianza, lo hacemos de dos formas:

  • Siguiendo la fórmula del coeficiente de correlación utilizando todos los cálculos anteriores.
  • Utilizando la función de la hoja de cálculo que lo calcula.
Elaboración propia. Coeficiente de correlación con la hoja de cálculo (CC BY-SA)

En esta tarea, tienes que entregar una hoja de cálculo en la que aparezca la tabla con los datos y los distintos parámetros que se están calculando hasta completar el coeficiente de correlación.

En la citada hoja de cálculo que entregues como resultado de esta tarea tiene que aparecer:

  • Media de X, $\bar{x}$
  • Desviación típica de X, $\sigma_x$
  • Media de Y, $\bar{y}$.
  • Desviación típica de Y, $\sigma_y$
  • Covarianza de X e Y siguiendo la fórmula, $S_{xy}$.
  • Covarianza de X e Y utilizando la función de la hoja de cálculo, comprobando que ambos resultados son iguales.
  • Coeficiente de correlación haciendo las operaciones de la fórmula.
  • Coeficiente de correlación usando la función de la hoja de cálculo, comprobando que los dos resultados son iguales.

Consulta el glosario al final de la página.

Conclusiones

Para finalizar la tarea, escribe un texto explicando cómo es la relación entre la posición que ocupa un ciclista en una etapa de montaña y la que ocupa en una etapa contrarreloj.

Glosario

Desviación típica

La desviación típica es una medida estadística que indica la cantidad de dispersión o variabilidad que hay en un conjunto de datos con respecto a su media.

La desviación típica mide qué tan alejados están los datos individuales de la media del conjunto.

\begin{equation} \boxed{ \sigma = \displaystyle \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n}}} \end{equation}

Distribuciones marginales

Las distribuciones marginales permiten analizar y comprender la relación entre dos o más variables aleatorias. Cuando se trabaja con varias variables aleatorias, es posible que se desee conocer la distribución de una de ellas independientemente de las otras. Esto se puede lograr mediante el cálculo de las distribuciones marginales.

En el caso bidimensional hay dos (una para la X y otra para la Y), en el caso multidimensional hay tantas como variables. Las distribuciones marginales son distribuciones de frecuencias unidimensionales pueden analizarse de la manera habitual (media, varianza, etc.).

Variable X Variable Y

$\displaystyle \bar{x} = \frac{ \sum f_i \cdot x_i  }{\sum f_i  } $

$V_x = \displaystyle  \frac{ \sum f_i \cdot (x_i-\bar{x})^2 }{\sum f_i  } $

$\sigma_x = \sqrt{V_x}$

$\displaystyle \bar{y} = \frac{ \sum f_i \cdot y_i  }{\sum f_i  } $

$V_y = \displaystyle  \frac{ \sum f_i \cdot (y_i-\bar{y})^2 }{\sum f_i  } $

$\sigma_y = \sqrt{V_y}$

Covarianza
La covarianza de una variable bidimensional (X,Y), $S_{x,y}$ se define como la media aritmética del producto de las desviaciones de cada una de las variables respecto de sus respectivas medias. \begin{equation} \boxed{  \displaystyle S_{xy} = \frac{ \sum f_i (x_i-\bar{x})(y_i-\bar{y}) }{n}  } \end{equation} o

\begin{equation} \boxed{  \displaystyle S_{xy} = \frac{ \sum f_i \cdot x_i \cdot y_i }{n} - \bar{x} \bar{y} } \end{equation} 

La covarianza nos mide la covariación conjunta de dos variables: 
  • Si es positiva nos dará la información de que a valores altos de una de las variables hay una mayor tendencia a encontrar valores altos de la otra variable y a valores bajos de una de las variables, corresponden valores bajos de la otra.
  • Si es negativa nos dará la información de que a valores altos le corresponderán bajos, y a valores bajos, altos.
  • Si es cero no hay una covariación clara en ninguno de los dos sentidos. 

Observa el siguiente applet y mueve los puntos verdes para obtener una covarianza positiva, una covarianza negativa y una covarianza cero.

Autoría: José Luis Muñoz Casado.

Coficiente de correlación lineal
La correlación lineal es una medida estadística que expresa hasta qué punto dos variables están relacionadas linealmente. Es una herramienta para describir relaciones simples sin hacer afirmaciones sobre causa y efecto.
Para medir la correlación se emplea el coeficiente de correlación \( pepe \) \( \begin{equation} \boxed{  r = \displaystyle \frac{S_{xy}}{\sigma_x \cdot \sigma_y} } \end{equation} \)

Es una representación abstracta de un sistema o proceso del mundo real mediante ecuaciones o fórmulas matemáticas.

Un modelo matemático es una representación simplificada, a través de ecuaciones, funciones o fórmulas matemáticas, de un fenómeno o de la relación entre dos o más variables.

Correlación lineal

La correlación lineal es una medida estadística que expresa hasta qué punto dos variables están relacionadas linealmente. Es una herramienta para describir relaciones simples sin hacer afirmaciones sobre causa y efecto.

Para medir la correlación se emplea el coeficiente de correlación $ r = \displaystyle \frac{S_{xy}}{\sigma_x \cdot \sigma_y}$Hecho

Recursos y evaluación de los aprendizajes

Recursos

  • Videotutoriales descritos en la actividad.

  • Editor de hoja de cálculo: Excel, OpenOffice, Google Calc.

Productos evaluables

  • Organización de los datos en una hoja de cálculo.
  • Utilización de la hoja de cálculo para obtener validar respuestas y cálculos.

Instrumentos y técnicas de evaluación

  • Anexo VII. Rúbrica. Tarea 5. (odt (odt - 0,26 MB)/ pdf (pdf - 0,51 MB))

Creado con eXeLearning (Ventana nueva)

Financiado por la Unión Europea — Ministerio de Educación y Formación Profesional (Gobierno de España) — Plan de Recuperación, Transformación y Resiliencia