Lección 15

Comparemos conjuntos de datos

  • Comparemos estadísticos de conjuntos de datos.

15.1: Compañeros de bolos

En cada histograma se muestran las distribuciones de los puntajes de una persona distinta en los últimos 25 juegos de bolos que jugó. Escoge 2 de estas personas para que se unan a tu equipo de bolos. Explica tu razonamiento.

Persona A

  • media: 118.96
  • mediana: 111
  • desviación estándar:​ ​32.96
  • rango intercuartil: 44
Histogram for bowler A

Persona B

  • media: 131.08
  • mediana: 129
  • desviación estándar: 8.64
  • rango intercuartil: 8
Histogram for Bowler B

Persona C

  • media: 133.92
  • mediana: 145
  • desviación estándar: 45.04
  • rango intercuartil: 74
Histogram for bowler C

Persona D

  • media: 116.56
  • mediana: 103
  • desviación estándar: 56.22
  • rango intercuartil: 31.5
Histogram for bowler D

15.2: Comparemos tiempos de carrera

Se midieron los tiempos de carrera de todos los corredores de maratón de dos grupos de edades distintos. Cada diagrama de puntos representa los tiempos de carrera de uno de los grupos.

Dot plot from 220 to 460 by 20’s. ages 30 through 39 marathon finish times in minutes. Beginning at 220 up to but not including 240, number of dots in each interval is 1, 11, 10, 10, 5, 4, 4, 5, 0, 0, 0, 0.
Dot plot from 220 to 460 by 20’s. ages 40 through 49 marathon finish times in minutes. Beginning at 220 up to but not including 240, number of dots in each interval is 0, 1, 7, 5, 4, 5, 4, 3, 5, 1, 6, 3.
  1. ¿Cuál de los dos grupos tiende a tardar más en correr la maratón? Explica tu razonamiento.
  2. ¿Cuál de los dos grupos tiene tiempos más variables? Explica tu razonamiento.


  1. Si compararas los tiempos de carrera de un grupo de personas de 20 a 29 años con los tiempos de las dos distribuciones anteriores, ¿qué crees que observarías?

  2. Encuentra algunos tiempos de carrera reales de personas en este grupo de edad y haz un diagrama de caja de tus datos que te ayude a compararlos con los otros.

15.3: Comparemos medidas

Para cada grupo de conjuntos de datos:

  • Determina las mejores medidas de centro y de variabilidad para analizar los conjuntos basándote en las formas de las distribuciones.
  • Determina cuál conjunto de datos tiene la mayor medida de centro.
  • Determina cuál conjunto de datos tienen la mayor medida de variabilidad.
  • Prepárate para explicar tu razonamiento.

1a

Dot plot from negative 16 to negative 3 by 1's. Distribution 1a. Beginning at negative 12, number of dots above each increment is 6, 4, 3, 2, 1, 2, 3, 4, 6.

1b

Dot plot from negative 16 to negative 3 by 1's. Distribution 1b. Beginning at negative 14, number of dots above each increment is 1, 2, 4, 5, 7, 5, 4, 2, 1, 0, 0, 0.

2a

Dot plot from 11 to 33 by 1's. Distribution 2a. Beginning at 13, number of dots above each increment is 1, 1, 2, 2, 2, 3, 3, 4, 3, 3, 2, 2, 2, 1, 1, 0, 0, 0, 0, 0, 0.

2b

Dot plot from 11 to 33 by 1's. Distribution 2b. Beginning at 27, number of dots above each increment is 1, 5, 6, 8, 6, 5, 1.

3a

Dot plot from 0 to 12 by 1's. Distribution 3a. Beginning at 0, number of dots above each increment is 0, 3, 2, 1, 1, 0, 2, 2, 3, 3, 5, 4.

3b

Dot plot from 0 to 12 by 0.5's. Distribution 3b. Beginning at 0, number of dots above each increment is 0, 4, 5, 3, 3, 2, 2, 0, 1, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.
 

4a

Dot plot from 78 to 112 by 2's. Distribution 4a. Beginning at 78, number of dots above each increment is 0, 0, 0, 0, 0, 0, 2, 2, 3, 3, 4, 5, 4, 3, 3, 2, 2.

4b

Dot plot from 78 to 112 by 2's. Distribution 4b. Beginning at 78, number of dots above each increment is 0, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 0, 0, 0, 0, 0, 0. 

5a

Box plot from 0 to 1,200 by 100's. Distribution 5a. Whisker from 500 to 600. Box from 600 to 900 with vertical line at 700. Whisker from 900 to 1100.

5b

Box plot from 0 to 1,200 by 100's. Distribution 5b. Whisker from 200 to 450. Box from 450 to 650 with vertical line at 500. Whisker from 650 to 700.

6a

Un pódcast de política recibe en su mayoría comentarios de personas que lo aman o lo odian.

6b

Un pódcast de cocina recibe comentarios que son de personas que ni lo odian ni lo aman.​​​

7a

En una prueba de resistencia del hormigón en la obra A, todas las 12 muestras se rompieron a 450 libras por pulgada cuadrada (psi, por su sigla en inglés).

7b

En una prueba de resistencia del hormigón en la obra B, las muestras se rompieron cada 10 psi: la primera capa se rompió a 450 psi y la última capa se rompió a 560 psi. 

7c

En una prueba de resistencia del hormigón en la obra C, 6 muestras se rompieron a 430 psi y otras 6 se rompieron a 460 psi.

Resumen

Para comparar conjuntos de datos, conviene examinar sus medidas de centro y sus medidas de variabilidad. La forma de la distribución puede ayudarnos a elegir la medida de centro y la medida de variabilidad más útiles.

Cuando las distribuciones son simétricas o aproximadamente simétricas, preferimos usar la media como la medida de centro y se debe usar junto con la desviación estándar, medida preferida de variabilidad en esos casos. Cuando las distribuciones son asimétricas o cuando hay datos atípicos, la mediana es con frecuencia una mejor medida de centro y se debe usar junto con el rango intercuartil (IQR), medida preferida de variabilidad.

Después de seleccionar las medidas apropiadas de centro y de variabilidad de un conjunto de datos, estas medidas se pueden comparar con las medidas de otro conjunto, si ambos conjuntos tienen una forma similar.

Por ejemplo, comparemos el número de segundos que tarda un jugador de fútbol americano en completar una carrera de 40 yardas en dos posiciones distintas. Primero, podemos examinar un diagrama de puntos de los datos y ver que los tiempos de los receptores cerrados no parecen ser simétricos, así que probablemente debemos encontrar la mediana y el IQR de ambos conjuntos de datos para comparar la información.

Dot plot from 4 point 25 to 5 point 75 by  point 25’s. Wide receiver times in seconds. Beginning at 4 point 25 up to but not including 4  point 5, number of dots in each interval is 12, 11, 2, 0, 0, 0.
 
Dot plot from 4 point 25 to 5 point 75 by point 25’s. Tight end times in seconds. Beginning at 4 point 25 up to but not including 4 point 5, number of dots in each interval is 0, 10, 6, 4, 3, 1.
 

La mediana y el IQR se pueden calcular a partir de los valores, pero también se pueden determinar a partir de un diagrama de caja.

Box plot.
Box plot for tight end times.

Esto muestra que los tiempos de los receptores cerrados tienen una mediana mayor (aproximadamente 4.9 segundos) comparada con la mediana de los tiempos de los receptores abiertos (aproximadamente 4.5 segundos). El IQR también es mayor para los tiempos de los receptores cerrados (aproximadamente 0.5 segundos) comparado con el IQR de los tiempos de los receptores abiertos (aproximadamente 0.25 segundos).

Esto significa que los receptores cerrados tienden a ser más lentos en la carrera de 40 yardas en comparación con los receptores abiertos. Los receptores cerrados también tienen mayor variabilidad en sus tiempos. Si consideramos todo esto, se puede interpretar que, en general, un receptor abierto típico es más rápido que un receptor cerrado típico y los receptores abiertos tienden a tener tiempos más parecidos entre sí que los receptores cerrados.

Entradas del glosario

  • dato atípico
    Un valor que difiere bastante de los otros valores del conjunto de datos. En el diagrama de caja que se muestra, el mínimo, 0, y el máximo, 44, son ambos datos atípicos.
  • desviación estándar

    Una medida de la variabilidad o dispersión de una distribución que se calcula con un método similar al método con el que se calcula la MAD (desviación media absoluta). El método que se usa se estudia en cursos más avanzados.

  • estadístico

    Una cantidad que se calcula a partir de los datos de una muestra, como la media, la mediana o la MAD (desviación media absoluta).