Lección 8

Usemos el coeficiente de correlación

  • Examinemos más de cerca los coeficientes de correlación.

8.1: Pongamos los números en contexto

Asocia la pareja de variables de cada fila con el diagrama de dispersión al que crees que se ajustan mejor. Prepárate para explicar tu razonamiento. 

variable \(x\) variable \(y\)
1. temperatura mínima diaria de Denver, CO, en grados Celsius, en un día cajas de cereal que hay en el inventario de un supermercado en Miami, FL, en un día
2. número de tiros libres anotados en un partido puntaje del equipo de baloncesto en un partido
3. estatura de un estudiante en pies estatura de un estudiante en pulgadas
4. número de minutos que una persona espera a ser atendida en el hospital calificación de satisfacción del hospital dada por una persona

A

A scatterplot.

B

A scatterplot.

C

A scatterplot.

D

A scatterplot.

8.2: Nunca sabes qué tan lejos llegarás

Priya anota la distancia que recorre su automóvil en varios trayectos y el tiempo que tarda en llegar a su destino. 

distancia (mi) (\(x\)) tiempo de recorrido (min) (\(y\))
2 4
5 7
10 11
10 15
12 16
15 22
20 23
25 25
26 28
30 36
32 35
40 37
50 51
65 70
78 72
  1. La distancia es uno de los factores que influyen en el tiempo de los recorridos del automóvil de Priya. ¿Qué otros factores influyen?
  2. ¿Cuáles de estos factores (incluyendo la distancia) puede tener la influencia más consistente en todos los recorridos del automóvil? Explica tu razonamiento.
  3. Usa tecnología para crear un diagrama de dispersión de los datos y agrega la recta de mejor ajuste al gráfico.
  4. En esta situación, ¿qué significa la pendiente de la recta de mejor ajuste?, ¿y la intersección de la recta de mejor ajuste con el eje \(y\)?
  5. Usa tecnología para encontrar el coeficiente de correlación de estos datos. Con base en ese valor, ¿cómo describirías la intensidad de la relación lineal entre los datos?
  6. ¿Cuánto tiempo crees que tardaría Priya en hacer un recorrido de 90 millas si la relación lineal continúa? Si ella conduce 90 millas, ¿crees que la predicción que hiciste va a estar cerca del valor real? Explica tu razonamiento.

8.3: Zoológico de correlaciones

En cada situación, describe la relación entre las variables de acuerdo al coeficiente de correlación. Asegúrate de mencionar si hay una relación fuerte o no, y si es una relación positiva o una relación negativa.

  1. Número de pasos dados cada día y número de kilómetros caminados cada día. \(r = 0.92\)
  2. Temperatura de una banda elástica y distancia que la banda elástica se puede estirar. \(r = 0.84\)
  3. Peso de un automóvil y distancia que el automóvil recorre si usa toda la gasolina del tanque. \(r = \text{-}0.86\)
  4. Consumo promedio de grasa de un ciudadano de un país y tasa promedio de cáncer de un país. \(r = 0.73\)
  5. Puntaje en un examen de Ciencia y número de palabras escritas en la pregunta tipo ensayo. \(r = 0.28\)
  6. Tiempo promedio dedicado a escuchar música en un día y tiempo promedio dedicado a ver televisión en un día. \(r = \text{-}0.17\)


Un biólogo trata de determinar si un grupo de delfines es de una nueva especie de delfines o si es un nuevo grupo de individuos de una especie conocida de delfines. El biólogo mide el ancho, en milímetros, de la parte más grande del cráneo (ancho cigomático) y la longitud, en milímetros, del hocico (longitud del rostro) de 10 delfines del mismo grupo de individuos.

Los datos parecen seguir un patrón lineal. La ecuación de la recta de mejor ajuste es \(y = 0.201x + 110.806\) y el valor de \(r\) es 0.201.

\(x\), longitud del rostro (mm)

\(y\), ancho cigomático (mm)

288

147

247

147

268

171

278

177

258

168

272

184

272

161

258

159

273

168

277

166

  1. Después de revisar los datos, el biólogo se da cuenta de que el primer ancho cigomático de 147 mm de la lista es un error y en realidad debe ser 180 mm. Usa tecnología para encontrar una ecuación de la recta de mejor ajuste y el coeficiente de correlación de los datos corregidos. ¿Cuál es la ecuación de la recta de mejor ajuste y cuál es el coeficiente de correlación?

  2. Compara la nueva ecuación de la recta de mejor ajuste con la original. ¿Cómo el cambio de ese dato influyó en la pendiente de la recta de mejor ajuste, en la intersección de la recta de mejor ajuste con el eje \(y\) y en el coeficiente de correlación?

  3. ¿Por qué crees que la asociación débil y positiva se volvió una asociación moderadamente fuerte? Explica tu razonamiento.

  4. Usa tecnología para cambiar el valor de \(y\) de la primera y de la segunda entrada de la tabla.

    1. ¿Cómo cambia el coeficiente de correlación cuando cambiamos cada valor de \(y\) de los puntos?

    2. ¿Puedes cambiar dos valores para obtener un coeficiente de correlación que esté más cerca de 1? Usa datos para justificar tu respuesta.

    3. Si no cambias el par \((288,180)\), ¿puedes cambiar un valor para hacer que la relación cambie de ser positiva a ser negativa? Usa datos para justificar o refutar tu respuesta.

Resumen

El valor del coeficiente de correlación se puede usar para determinar la intensidad de la relación entre dos variables que están representadas en los datos.

En general, si las variables aumentan juntas, podemos decir que tienen una relación positiva. Si un aumento en los datos de una variable tiende a estar acompañado de una disminución en los datos de la otra variable, las variables tienen una relación negativa. Si los datos están muy cerca de la recta de mejor ajuste, decimos que hay una relación fuerte. Si los datos están esparcidos y no están tan cerca de la recta de mejor ajuste, decimos que hay una relación débil.

Un coeficiente de correlación que tiene un valor cercano a 1 sugiere que hay una relación fuerte y positiva entre las variables. Esto significa que la mayoría de los datos están agrupados muy cerca de una recta, y que cuando el valor de una de las variables aumenta, el valor de la otra también aumenta. El número de escuelas de un barrio y la población del barrio son un ejemplo de variables que tienen una correlación fuerte y positiva. Usualmente, las poblaciones grandes tienen una gran cantidad de escuelas y los barrios pequeños tienden a tener menos escuelas, así que la correlación es positiva. Estas variables están estrechamente conectadas, así que la correlación es fuerte.

De forma similar, un coeficiente de correlación que está cerca de -1 sugiere una relación fuerte y negativa entre las variables. Nuevamente, la mayoría de los datos tiende a estar muy cerca de una recta, pero ahora, cuando un valor aumenta, el otro valor disminuye. El tiempo que transcurre desde que sales de casa y la distancia que te falta para llegar a la escuela tienen una correlación fuerte y negativa. Cuando el tiempo de recorrido aumenta, la distancia a la escuela disminuye, así que la correlación es negativa. Nuevamente, las variables están estrechamente conectadas, así que la correlación es fuerte.

Cuando la correlación entre las dos variables es débil, concluimos que puede haber otras razones por las cuales los datos cambian. Por ejemplo, el número de mascotas, y el número de hermanos y hermanas son variables que tienen una correlación débil. Puede que haya cierta relación, pero hay muchos otros factores (distintos del número de hermanos y hermanas) que explican la variabilidad del número de mascotas.

Para determinar si el valor de la correlación es fuerte o débil, se debe considerar el contexto de la situación. En física, al medir con instrumentos precisos, es posible que un coeficiente de correlación de 0.8 no se considere fuerte. En ciencias sociales, al recolectar datos usando encuestas, puede que un coeficiente de correlación de 0.8 sea muy fuerte.

Entradas del glosario

  • coeficiente de correlación

    Un número entre -1 y 1 que describe la intensidad y dirección de una asociación lineal entre dos variables numéricas. El coeficiente de correlación tiene el mismo signo que la pendiente de la recta de mejor ajuste. Cuanto más cerca de 0 está el coeficiente de correlación, más débil es la relación lineal. Cuanto más cerca de 1 o -1 está el coeficiente de correlación, más se ajusta el modelo lineal a los datos.

    En la primera figura, el coeficiente de correlación es cercano a 1. En la segunda, el coeficiente de correlación es positivo, pero cercano a 0. En la tercera, el coeficiente de correlación es cercano a -1.

  • relación débil

    Una relación entre dos variables numéricas es débil si los datos no están tan cerca de la recta de mejor ajuste.

  • relación fuerte

    Una relación entre dos variables numéricas es fuerte si los datos están muy cerca de la recta de mejor ajuste.

  • relación negativa

    Una relación entre dos variables numéricas es negativa si el valor de los datos de una de las variables tiende a disminuir cuando el valor de los datos de la otra variable aumenta.

  • relación positiva

    Una relación entre dos variables numéricas es positiva si el valor de los datos de una de las variables tiende a aumentar cuando el valor de los datos de la otra variable aumenta.