Una tabla de distribución de frecuencia es muy util cuando se tienen datos no agrupados. existen diferentes casos; cuando la variable es cualitativa, cuando la variable es cuantitativa discreta, cuando la variable es cuantitativa continua

Tablas de Distribución de Frecuencias

Para Véliz (2011) define tablas de distribución de frecuencias como: 

Describen cómo se distribuyen los valores de un conjunto de datos cuando se organizan en clases o categorías. En estas tablas se muestra el número de elementos de cada clase y la proporción que existe en cada una de ellas. Una tabla de frecuencias describen entonces la variabilidad de los datos. Además de las tablas, se usan diferentes tipos de gráficos, que informan de una manera rápida y consisa acerca de la variabilidad de los valores de la variable. 

Caso en donde la variable es cualitativa 

Ejemplo: En la tabla 1 se registran 143 empresas que cotizan en la bolsa de valores local, de acuerdo al sector al que pertenecen. 

 

Tabla 1. Tabla de distribución de frecuencias
distribución de frecuencias3

Según Véliz (2011) define frecuencia absoluta como: "Indica las veces que se ha observado dicha categoría en el conjunto de datos considerado". (P.16)

En este ejemplo, las frecuencias absolutas indican el número de empresas que pertenecen a cada sector. De esta manera se observa que 68 de las empresas pertenecen al sector agrario. 

Para Véliz (2011) define frecuencia relativa como:Indica la proporción de las veces que se ha observado dicha categoría en el conjunto de datos considerado. Es igual al cociente entre la frecuencia absoluta de la categoría y el número total de observaciones. La frecuencia relativa puede expresarse como porcentaje y usarse para comparar dos o más distribuciones de datos.(P.16) 

Las frecuencias se representan gráficamente usando barras rectangulares o mediante sectores circulares. 

En el gráfico de los sectores circulares de la Figura 1, cada sector corresponde a una modalidad y su correspondiente ángulo central es \(\theta=360^{\circ}n_{1}/T\), en donde \(n_1\) es la frecuencia absoluta de la modalidad y T es el total de datos. La modalidad "empresas industriales", por ejemplo, está representada por un sector circular cuyo ángulo central es igual a 

\((360^\circ)(53)/143=133.42^\circ\)

Figura 1. Gráfico de sectores

gráfico de sectores
En el gráfico de barras, cada barra rectangular con el mismo ancho corresponde a una modalidad; su altura puede ser medida en unidades de frecuencia absoluta o de frecuencia relativa. En la figura 2, la modalidad o categoría "empresas industriales" está representada por una barra vertical de altura igual a 53 unidades. 

Figura 2. Gráfico de barras

Gráfico de barras
Ejemplo. Diagrama de Pareto y el control de calidad: Con el fin de mejorar la calidad de un producto o servicio, se listan las causas que contribuyen a que el producto no cumpla con las especificamente establecidas. Las frecuencias de estas causas se representan mediante barras. Si las barras se grafican de mayor a menor frecuencia, se obtiene un diagrama llamado de Pareto. Por ejemplo, en la fabricación de un cierto producto se han detectado las siguientes causas de fallas: herramientas gastadas, errores de operación, mal diseño y mala calidad de los materiales. Las frecuencias de estas fallas se muestran a continuación, en la tabla 2,  

Tabla 2. Causa de fallas

distribución de frecuencias. causa de fallas

La gráfica de las frecuencias se muestra a continuación, en la figura 3, en un diagrama de Pareto. 

Figura 3. Diagrama de pareto.

diagrama de pareto

Este gráfico se llama así en honor a Vilfredo Pareto, economista italiano (1824-1923) quien introdujo un análisis para el estudio de la distribución de la riqueza. Los principios de este análisis se aplicaron posteriormente para estudiar las causas que dan lugar a diversos problemas, estableciéndose que de un grupo de factores que contribuyen a un efecto común, frecuentemente unos cuantos son los responsables de la mayor parte del efecto ("el 80% de los problemas se deben al 20% de las causas"). 

En este ejemplo, si se pone atención en los primeros tipos de fallas (50% de causas de fallas), se podrá reducir por lo menos el 86% de los problemas. 


Caso en donde la variable es cuantitativa discreta

Ejemplo. Seguridad en la empresa: El siguiente es un reporte de 105 semanas acerca del número de accidentes, por semana, ocurridos en la fábrica de alimentos Nutre. 

datos no agrupados

De la forma como están presentados los datos no es fácil extraer información. A lo más se puede decir que el número de accidentes en las semanas registradas varía de 0 a 5. Es necesario organizar los datos para así obtener mejor información. Para ello se utilizan las tablas de distribución de frecuencias. 

Una tabla de distribución de frecuencias, como la tabla 3, es fácil de construir. En la primera columna se escriben los diferentes valores de la variable que se han observado. En este caso, 0,1,2,3,4 y 5 accidentes por semana. 

La frecuencia (absoluta) es decir el número de veces que se repite cada valor de la variable en el conjunto de datos observado, aparece en la segunda columna. Así por ejemplo: el 0 se repite 10 veces (10 semanas sin accidentes), el 1 se repite 25 veces (25 semanas con 1 accidente), etcétera. 

En la tercera columna, la frecuencia relativa expresa la proporción en que se da cada valor, en relación con el total de los datos. Por ejemplo, en el 38.09% se dan 2 accidentes cada semana.

En la cuarta columna, la frecuencia acumulada (absoluta) hasta un determinado valor se interpreta como el número de datos acumulados hasta ese valor. En la quinta columna, la frecuencia acumulada relativa hasta un determinado valor indica la proporción de datos acumulados hasta dicho valor. Así por ejemplo, en 75 de las semanas observadas ocurrieron 2 accidentes a lo más y en un tercio de las semanas observadas (0.3333) ocurrió 1 o ningún accidente por semana. 

Tabla 3. distribución de frecuencias del numero de accidentes por semana.

tabla de frecuencias

La tabla 3, muestra que en la mayor parte de semanas ocurrieron de 1 a 3 accidentes. 

En el gráfico de la figura 4 se representa el gráfico de bastones para las frecuencias. Este se usa para representar la columna de frecuencias; indica la forma de la distribución de la variable. En esta gráfica cada "bastón" o segmento de recta tiene una altura proporcional a la frecuencia absoluta del valor de la variable. De igual manera se procede para hacer gráficos de bastones para los otros tipos de frecuencias. 

Figura 4. gráfico de bastones para la distribución del numero de accidentes por semana.

gráfico de bastones

Caso en donde la variable es cuantitativa y continua

Para organizar conjuntos de valores que corresponden a variables continuas se usan los intervalos de clase. Se procede como en el siguiente ejemplo. 

Ejemplo. Pagos por siniestros: El conocimiento de la distribución de los pagos realizados por una compañía de seguros por distintos siniestros ocurridos en un cierto período es muy importante por diferentes razones; una de ellas puede ser el establecimiento de un "margen de solvencia" (reservas que la compañía debe tener para hacer frente a los siniestros). Los siguientes son los valores, en unidades monetarias (u.m.), pagados por la compañía de seguros Segur durante el mes de Marzo. 

datos no agrupados continuos

La variable en estudio es la variable continua X=Pago por siniestro en u.m 

Encontramos que esta variable registra valores comprendidos entre 10 u.m. y 261.20 u.m.

Si se construye una tabla de frecuencias para estos datos, tal como se hizo para el caso discreto, se tendría una tabla con 60 filas (una por cada valor), y no brindaría ninguna información respecto de la manera como se distribuye los valores de la variable. Por ello, y para un mejor estudio, los estadísticos han ideado un procedimiento mediante el cual se agrupan los datos en "clases" que se obtienen al dividir el intervalo \(/=[10.00,261.20]\), cuyos extremos son el dato mayor y el dato menor, en subintervalos de igual longitud. Estos subintervalos se llaman intervalos de clase. 

A la diferencia entre el dato mayor y el dato menor se le llama rango de la variable. En este ejemplo, el rango es \(261.20-10.00=251.20\)

Si se divide, por ejemplo, el intervalo / en K= 10 intervalos de clase de igual longitud, cada uno de estos intervalos medirá \(h=\frac{261.20-10.00}{10}=25.12\) unidades, valor que se aproxima a 26 unidades por exceso con la finalidad de cubrir todo el intervalo /. 

Se conviene en que los intervalos de clase sean abiertos por la izquierda y cerrados por la derecha, a excepción del primero, que será cerrado por ambos extremos. En el ejemplo, los intervalos de clase son: 


\(/_{1}=[10.00,36.00]\)            \( /_{2}=]36.00,62.00]\)...................\(/_{10}=]244.00,270.00]\)

La tabla 4 es un arreglo de la información por columnas. La primera columna está formada por los intervalos de clase antes obtenidos. 

En la segunda columna aparecen las llamadas marcas de clase, que son los puntos medios de cada intervalo de clase. Cada marca de clase es un representante de los datos que están en el respectivo intervalo de clase. En la tercera columna de la tabla se indica la frecuencia o el número de datos que se observaron en cada intervalo de clase. Así, en el intervalo de clase  \(/_1=[10.00,36.00]\) hay 4 datos. Es decir, en marzo se realizaron 4 pagos mayores o iguales que 10.00 y menores o iguales que 36.00. 

En el intervalo \(]36.00,62.00]\) la frecuencia es 8 y la marca de clase es 49.00; entonces, se puede considerar que 49.00 se repite 8 veces. 

En la cuarta columna, la frecuencia relativa indica la proporción de datos en cada intervalo. 

En la quinta columna, el valor de la frecuencia acumulada hasta un determinado intervalo de clase se interpreta como el número de datos acumulados hasta ese intervalo. 

En la sexta columna, el valor de la frecuencia acumulada relativa hasta un determinado intervalo de clase indica la proporción de datos acumulados hasta el intervalo respectivo. 

Tabla 4. Tabla de frecuencias que indica la distribución de los 60 pagos realizados en Marzo

distribucion de frecuencias. datos continuos

La pregunta que a menudo se planeta tiene que ver con el número de intervalos de clase a usar. Si se eligen pocos intervalos, la longitud de cada intervalo de clase resulta grande, y las marcas de clase no siempre son buenas representaciones de los valores que están en el intervalo, perdiéndose considerable información. Si se eligen muchos intervalos, la longitud de cada uno de ellos resulta pequeña, y , en este caso, la organización de los datos puede requerir de mayor trabajo, con el riesgo de realizar interpretaciones erradas de los resultados. Existen diferentes reglas para determinar el número de intervalos de clase. Una de ellas es la Regla de Sturges, que recomienda tomar el mayor entero próximo al valor \(1+3.3logT\) como número máximo de intervalos, si el número de datos T es una potencia de 2. 

La Tabla 5 muestra otra regla práctica para determinar el número de intervalos. 

Tabla 5. Regla práctica para determinar el número de intervalos a usar en una tabla de distribución de frecuencias. 

regla practica numero de clases

Esta metodología puede aplicarse también para variables cuantitativas discretas que tienen muchos valores diferentes. 

Las frecuencias que se indican en una tabla de distribución por intervalos de clase se representan gráficamente, colocando los intervalos de clase en el eje X y construyendo sobre cada uno de estas barras rectangulares yuxtapuestas de tal manera que la altura de cada una de ellas sea proporcional a la frecuencia respectiva que se desea representar. Los gráfios que resultan son llamados histogramas. Los histogramas de frecuencia absoluta y acumuladas se representan en la Figuras 5 y 6, respectivamente. 

La distribución de los datos puede observarse también trazando los denominados polígonos de frecuencias. Estos gráficos se obtienen uniendo, mediante segmentos, los puntos medios de los lados superiores de los rectángulos del histograma. En el caso de las frecuencias acumuladas, la poligonal que se obtiene se llama ojiva. Los polígonos de frecuencia suavizados indican la forma de la distribución de los datos; estos sugieren el "modelo teórico" que puede servir para el análisis de los datos.

Figura 5. histograma y polígono de frecuencias

histograma y polígono de frecuencias

Figura 6. histograma de frecuencias acumulado y poligono de frecuencias acumulada. Ojiva.

histograma de frecuencias acumulado y polígono de frecuencias acumulada

Observación.

  • Si no se tienen los datos originales y solo se cuenta con la información tabulada, para facilitar la interpretación, se supone que los datos se distribuyen de manera uniforme en cada intervalo. 
  • En los histogramas construidos se considera que los intervalos de clase son de igual longitud y que las frecuencias son proporcionales a las alturas de los rectángulos. Si los intervalos de clase son de longitudes diferentes, las frecuencias deberán ser proporcionales a las áreas de los rectángulos y no a las alturas de los rectángulos. 

Tabla 6. Tabla de frecuencia

tabla frecuencia

Figura 7. Histograma. frecuencias proporcionadas a las areas

histograma. frecuencias proporcionadas a las áreas

Los histogramas pueden tomar diferente forma. Algunas veces, los histogramas son simétricos con colas a la derecha y a la izquierda (Figura 8a). Se dice que estos histogramas tienen la forma de una distribución normal. 

La forma de los histogramas también puede ser sesgada con cola a la derecha ((Figura 8 a). En este caso los datos están concentrados en el extremo izquierdo, y van disminuyendo gradualmente en número hacia el extremo derecho del eje horizontal. Los histogramas asimétricos, como el de la Figura 8d, son sesgados con cola a la izquierda. En este caso los polígonos resultantes representan una distribución que tiene sus datos concentrados a ala derecha, y van disminuyendo gradualmente cuando el eje horizontal se recorre de derecha a izquierda. Por ejemplo, la distribución de los datos que indican el número de días que se requiere para vender una casa, generalmente, tiene una distribución que se representa como el histograma que aparece en la Figura 8d. Esto, porque una casa no se vende tan rápidamente. Los salarios, a menudo, tiene una distribución como la que indica la figura 8b. (la mayoría gana poco y la minoría gana mucho). 

Algunas recomendaciones, como las siguientes, se pueden tener en cuenta para interpretar un histograma 

  • Observar las barras de mayor frecuencia, es decir, la "tendencia central" de los datos. 
  • Estudiar el punto en donde se "centran" los datos. 
  • Estudiar la variabilidad. 
  • Analizar la forma del histograma. Observar si el histograma es simétrico, sesgado, multimodal o presenta depresiones. 
  • Observar la existencia de "datos raros", es decir, medidas muy extremas. Los datos raros reflejan a menudo situaciones especiales que es preciso investigar (datos incorrectos, mediciones realizadas sobre elementos que no pertenecen a la población o proceso en estudio). 

También es necesario considerar las limitaciones que tiene esta herramienta fundamental. Algunas son las siguientes:

  • Con un histograma es difícil detectar tendencias que suceden en el tiempo. Para ello es preferible usar las gráficas de series de tiempo o las cartas de control. 
  • Los histogramas no son adecuados para comparar la variabilidad de dos grupos o más grupos de datos. Son preferibles los "diagramas de cajas". 

Figura 8. Diferentes tipos de histogramas: simetricos, sesgados, bimodales.

diferentes tipos de histogramas

Ejemplo. Histograma de los pagos por siniestros: Utilizando los datos correspondientes a los pagos realizados por la compañía de seguros Segur por diferentes siniestros, se obtiene el histograma de la Figura 9.

 Figura 9. pagos por siniestros

histograma. pagos de siniestros

En el histograma se observa que los pagos menores por siniestro suceden con mayor frecuencia. 


Medidas de tendencia central

Moda

La moda, la define Véliz (2011) como: "Es una medida que tiene sentido para cualquier tipo de escala. Para un grupo de datos, la moda \(M_0\) es el dato que más se repite".(P.50) 

La moda del conjunto de datos 3,3,4,4,5,5,5,4,4,6 

Figura 10. La moda es 4.

la moda es 4

Un conjunto de datos puede tener una moda (unimodal), dos modas (bimodal), etcétera, o puede no tener ninguna moda, si la frecuencia es la misma para todos los datos. 

La media aritmética

Si \(X_1,............,X_n\) es un grupo de datos que corresponden a una muestra de una población, la media aritmética o simplemente la media de estos valores es el número 

\(\bar{X}=\frac{x_1+....+x_n}{n}=\frac{1}{n}\sum_{i=1}^{n}X_i\)

La idea es que este número represente a cada uno de los valores del conjunto. Esto sucederá en la medida en que la distribución sea simétrica y tenga poca dispersión.

Si el conjunto de datos corresponde a toda la población, la media aritmética se denota con \(\mu\)

A  \(\mu\) también se le llama media poblacional mientras que a \(\bar{X}\) (que corresponde a la muestra) se le llama media muestral. 

La media tiene sentido para datos medidos con la escala de intervalo y de razón. 

De no indicar lo contrario, los conjuntos de datos que usaremos a menudo corresponderán a muestras de una población. 

Ejemplo. Tiempo promedio en realizar una tarea: Los siguientes datos corresponden al tiempo, en minutos, que utilizan 30 empleados en realizar una tarea. 

4.1, 2.2, 6.7, 2.9, 5.0, 3.2, 3.7, 3.4, 4.0, 7.5, 3.1, 8.0, 2.4, 7.6, 6.2, 8.7, 4.5, 4.7, 6.1, 3.5, 2.7, 4.5, 3.9, 5.1, 3.0, 4.6, 4.6, 3.6, 4.0, 3.7

La media de estos datos es: 

\(\bar{X}=\frac{4.1+..........+3.7}{30}=4.5733\)

Así, el tiempo medio que utiliza cada empleado en realizar la tarea es de 4.6 minutos, aproximadamente. 

Media para datos agrupados. Media ponderada

Si los valores \(X_1,.......,X_k\) se repiten \(n_1,.........,n_k\) veces, respectivamente, entonces la media de los valores puede calcularse con: 

 \(\bar{X}=\frac{x_1n_1+.......+x_kn_k}{n_1+...+n_k}=\sum_{i=1}^{k}f_ix_i\)

Donde \(f_i=n_i/(n_1+.....+n_k)\) es la frecuencia relativa del valor \(x_i\).

En este caso, a \(\bar{X}\) se le llama fórmula de la media para datos agrupados, y corresponde a una suma ponderada de los datos. La ponderación de cada dato es su frecuencia relativa, \(f_i\). La ponderación indica la importancia del dato en el conjunto. 

Ejemplo. Tiempos de servicio: Los tiempos de servicios, en años, en la empresa ABC de seguros, que emplea a 150 personas, están distribuidos de la manera como se indica en la siguiente tabla.

Tabla 7. Tiempo de servicio

tabla de frecuencia tiempo de servivio

La media de los tiempos de servicio es: 

\(\bar{X}=\frac{4(50)+5(70)+6(30)}{150}=4.86\)

En promedio, las 150 personas tienen 4.86 años de servicio en la empresa ABC. 

La mediana

Según Véliz (2011) define mediana de la siguiente forma: "Para un grupo de n datos ordenados que conforman una muestra, la mediana \(M_e\) es el valor que ocupa la posición central si n es impar y es el promedio de los datos centrales si n es par"(P.54). 

La mediana del conjunto de datos: 3,3,3,3,4,4,4,5, 6,6,6,6,6,6,7 es 5 

La mediana del conjunto de datos: 3,3,3,3,4,4,4, 5,6,6,6,6,6,6,6,7 es 5.5 

Figura 11. en (a) la mediana en 5 y en (b) la mediana es 5.5.

mediana

La mediana \(M_e\) es una medida de centralización resistente. Al variar uno de los datos que no sean los de la posición central, la mediana no varía; por ello se usa como resumen númerico de grupos de datos cuya forma del polígono de frecuencias no es simétrica. 

El rango

Según Véliz (2011) define rango como:" El rango o recorrido de un conjunto de datos es la diferencia entre el dato mayor y el dato menor (longitud del intervalo en donde varían los datos)"(P.58)

El rango del conjunto de datos: 

23, 24, 24.5, 24.6, 24.7, 24.9, 25, 26.9, 27, 28, 100

Es \(100-23=77\)

El rango no indica la manera como están distribuidos los datos. 

La varianza y la desviación estándar

Para Veliz (2011) define varianza de la siguiente forma: “Indica cómo están dispersos los datos respecto de su media. Esta medida explica gran parte de la información contenida en los datos. Si \(X_1,.......,X_n\) es un conjunto de n datos correspondientes a una muestra de una población, cuya media es \(\bar{X}\), entonces su varianza se denota con  \(S^{2}\) y se define como el número no negativo. 

\(S^{2}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{n-1}\)

Si el conjunto de datos corresponde a toda una población de tamaño N, la varianza se denota con\(\sigma^{2}\)  y se define como:

\(\sigma^{2}=\frac{\sum_{i=1}^{n}(X_i-\mu)^2}{N}\)

A \(\sigma^{2}\) se le llama también varianza poblacional mientras a \(S^{2}\) se le llama varianza muestral. 

En ambos casos, el valor de la varianza no corresponde a la misma escala de los datos, pues considera los cuadrados de las desviaciones y no las desviaciones mismas. Este es un problema que se resuelve si se considera como medida de dispersión a la raíz cuadrada de la varianza. Así resulta la desviación estándar, número que tendrá la misma escala que los datos.

Para la población y para la muestra, la raiz cuadrada de la varianza se llama desviación estándar poblacional y muestral, respectivamente. 

La desviación estándar se denota con S para el caso muestral y con \(\sigma\) para el caso poblacional. 

Ejemplo. Distribución del número de empleados: La siguiente tabla indica cómo se distribuye el número X de empleados para una muestra de 34 empresas de calzado. 


Número de empleados, \(X_i\) 
Número de empresas, \(n_i\)  10  15 

En promedio hay \(\bar{X}=[10(3)+15(5)+9(7)]/[10+15+9]=4.9412\) empleados por empresa. 

La varianza del número de empleados es igual a:

\(S^{2}=\frac{(3-4.9412)^2(10)+(5-4.9412)^2(15)+(7-4.9412)^2(9)}{10+15+9-1}=2.299\)

Ejemplo. Tiempo dedicado a ver televisión: Para una muestra de 28 niños, se han medido los tiempos, en horas por día, que estos dedican a ver televisión. La distribución respectiva es como se indica en la siguiente tabla. Hallar, en forma aproximada, la media y la desviación estándar de los tiempos que los 28 niños dedican a ver televisión cada día.

Tabla 8. Tv en casa 

tabla de fecuencia555

Solución 

Usando las marcas de clase, se tiene que la media del tiempo que los 28 niños dedican a ver televisión se puede aproximar de la siguiente manera: 

\(\bar{X}=\frac{(3)5+(5)7+(7)10+(9)4+(11)2}{5+7+10+4+2}=6.36\) horas, aproximadamente (\(x_i\) es la marca de clase). 

De igual manera, la varianza del tiempo que los 28 niños ven televisión se aproxima con: 

\(S^{2}=\frac{(3-6.36)^25(5-6.36)^27+(7-6.36)^210+(9-6.36)^24+(11-6.36)^22}{27}=5.349\) y la desviación estándar es \(\sqrt{5.349}=2.3128\) horas, aproximadamente. 

Los niños que conforman la muestra ven, en promedio, 6.36 horas de televisión por día con una desviación estándar de 2.3128 horas. 

Coeficiente de simetría de Fisher

Este coeficiente se define como: 

\(S_k=\frac{\sum_{i=1}^{n}(x_i-\bar{X})^3}{(n-1)S^{2}}\), donde \(S^{2}=\frac{\sum_{i=1}^{n}(x_i-\bar{X})^2}{(n-1)}\)

Este coeficiente de simetría es igual a 0 cuando la distribución es simétrica. Si el coeficiente de simetría es diferente de 0, la distribución es asimétrica. 

Figura 12. simetria y asimetria.

coeficiente de simetría

El coeficiente de curtosis de Fisher

Según Véliz (2011), define coeficiente de curtosis de Fisher como: "De un grupo de datos, \(X_1,.......,X_n\) es una medida del apuntamiento o agudeza de su polígono de frecuencias".(P.69)

Si la curtosis es igual a 0, la distribución es mesocúrtica. las distribuciones normales son mesocúrticas. 

Si la curtosis es mayor que 0, la distribución es leptocúrtica. las leptocúrticas son más apuntadas que las mesocúrticas. 

Si la curtosis es menor que 0, la curva es platicúrtica. Las platicúrticas son más achatadas que las mesocúrticas. 

Figura 13. Curtosis

coeficiente de curtosis

Ejemplo. Tiempo de atención: La distribución que aparece en la Tabla 9 corresponde a los tiempos, en minutos, que utiliza el empleado de una ventanilla de un banco para atender a100 personas.

Tabla 9. distribución de frecuencias para el tiempo en minutos.

ejemplo simetría y curtosis

El coeficiente de simetría de Fisher, cercano al cero, indica una distribución simétrica. La distribución es platicúrtica (curtosis= -0.591). 

Tabla 10. Descriptivos 

estadísticos descriptivos

Figura 14. Histograma

histograma