A menudo en una investigación se recogen grandes cantidades de datos numéricos. Cuando esto ocurre es difícil visualizar un orden o estructura que ayude a analizarlos. Para lograrlo es necesario condensar los datos en grupos de acuerdo a ciertas divisiones de la recta numérica (intervalos o clases). Aunque con esta agrupación la información inicial sobre cada dato individual se pierde, es más fácil visualizar rápidamente las características principales del grupo total de datos.
La frecuencia de un intervalo es el número de datos que corresponden a ese intervalo. Una distribución de frecuencia es una tabla en la que aparecen todos los intervalos y las frecuencias de datos correspondientes a cada intervalo. Esta agrupación de datos numéricos por intervalos o clases se llama una distribución de frecuencia porque en ella se indica cuan frecuentemente aparecen datos en cada intervalo.
Las tablas de distribución de frecuencias se utilizan cuando se recolectan datos, con ellas se pueden representar los datos de manera que es más fácil analizarlos.
Se pueden elaborar tablas de distribución de frecuencias para datos no agrupados y para datos agrupados. Estas últimas se utiliza cuando se tienen muchos datos.
Para elaborar tablas de distribuciones de frecuencia se debe tener en cuenta lo siguiente:
Cuando hay muchos datos se agrupan en clases.
Clase es cada uno de los grupos en que se dividen los datos. Para determinar cuántas clases crear, se puede utilizar la siguiente fórmula (fórmula de Sturges):
Número de clases = 1 + 3,322 log n donde n es el número total de datos.
Si al aplicar la fórmula se obtiene un número decimal, se aproxima al siguiente entero.
El intervalo de clase o el ancho de la clase (tamaño de la clase) es el espacio que hay entre el límite superior y el límite inferior de la clase, los cuales corresponden a los valores extremos de la clase. Para obtener el ancho de clase se utiliza la siguiente fórmula:
Ancho de clase = (dato superior – dato inferior) / número de clases
La frecuencia absoluta es el número de veces que se repite cada dato. Cuando se agrupan los datos, es el número de datos que tiene cada clase. Se simboliza con f j.
La marca de clase es el punto medio de la clase. Se obtiene dividiendo entre dos la suma de los valores extremos de cada clase.
El rango es la diferencia entre el valor mayor y el valor menor en estudio de una distribución de datos.
La frecuencia absoluta acumulada es la frecuencia total hasta el límite superior de cada clase. Se simboliza con F j.
La frecuencia relativa de un dato da información sobre qué parte de la población o de la muestra en estudio corresponde a la característica analizada. Se obtiene dividiendo la frecuencia absoluta entre el número total de datos y se puede expresar como una fracción, como un decimal o como un porcentaje. Se simboliza con f j / n donde n es el número de datos.
La frecuencia acumulada relativa es la frecuencia relativa total hasta el límite superior de cada clase. Se simboliza con F j / n donde n es el número total de datos.
Ejemplo:
Suponga que un investigador desea determinar cómo varía el peso de un grupo de estudiantes de primer semestre de una universidad. Selecciona una muestra de 50 estudiantes y registra sus pesos en kilogramos. Los datos obtenidos fueron los siguientes:
64 65 64 72 68 66 55 57 60 62
64 65 64 71 68 66 56 59 61 62
63 65 63 70 67 66 57 59 61 62
64 64 63 69 67 66 58 60 61 62
Para determinar el número de veces que aparece cada dato (frecuencia absoluta), se utiliza el diagrama de tallo y hojas. Se traza una línea y a la izquierda se escriben las cifras anteriores a las unidades que tengan los datos, a la derecha de la línea se escriben la cifra de las unidades para cada uno de los datos. Este diagrama facilita determinar la cantidad de veces que se repite un dato y los valores de los datos con el fin de escribirlos de manera ordenada en la tabla.
Luego, se organiza la información en la tabla, de la siguiente manera:
Las gráficas que representan la información de la tabla son: Histograma de frecuencias absolutas, Polígono de frecuencias, Diagrama circular, Ojiva.
Las gráficas que representan la información de la tabla son: Histograma de frecuencias absolutas, Polígono de frecuencias, Diagrama circular, Ojiva.
Para construir la tabla de datos no agrupados se debe calcular primero lo siguiente:
Al construir la tabla de datos agrupados con la información del ejemplo, se tiene:
Tabla de datos agrupados
Para esta tabla también se pueden hacer histogramas o diagramas de barras y circulares.
Para esta tabla también se pueden hacer histogramas o diagramas de barras y circulares.
Los estudios estadísticos que se centran en el análisis de una sola variable se llaman unidimensionales.
Sin embargo, en las situaciones reales es corriente que se tenga que investigar la combinación de dos variables estadísticas, en lo que se conoce por distribución bidimensional.
Cuando se realizan estudios estadísticos de dos variables, el modelo resultante recibe el nombre de distribución bidimensional. Algunos ejemplos de este tipo de distribución son las tablas de altura-peso de un colectivo de población, la relación pulso-temperatura de un grupo de enfermos y la gráfica de ingresos y gastos de una empresa.
En estas distribuciones se manejan variables estadísticas bidimensionales, que constituyen pares de valores de cada una de las variables elementales que intervienen, denotados por (xi, yj).
Para hacer un estudio de una variable estadística bidimensional, tendremos que recoger de cada individuo dos datos. Estos datos correspondientes a un mismo individuo no se pueden separar, pues vamos a estudiar la relación que existe entre ellos. Los podremos recoger formando pares de elementos (x1, y1), (x2, y2),... (xn,yn), en los que el primer elemento pertenece a la primera de las características observadas y el segundo elemento a la segunda característica.
Una vez que hemos recogido todos los datos, la mejor forma de estudiarlos es disponerlos en una tabla estadística. Dependiendo de la cantidad de datos que tengamos, de la frecuencia de los mismos y de que para un mismo valor de una de las variables, se presenten varios valores de las otras, existen dos tipos de tablas estadísticas:
Tabla bidimensional simple
Está formada por tres filas o columnas en las que se representan ordenadamente los valores de las variables y sus frecuencias. Está indicada para casos con pocos datos y pocos valores o ninguno repetidos.
En caso de que las frecuencias sean iguales a uno, se puede omitir la fila o columna correspondiente a las mismas.
Escogiendo la fila o columna de cada una de las variables junto con la de las frecuencias, tenemos la tabla correspondiente a cada una de las variables unidimensionales, que podremos utilizar para calcular la media y la desviación típica de las mismas.
Tabla de doble entrada
Está formada por tantas filas y columnas como valores tengamos de cada una de las variables, más una fila y una columna más para indicar los totales. Está indicada para casos con bastantes datos, en los que para cada valor de una variable, existen varios valores de la otra.
Escogiendo la primera y la última fila, tenemos la tabla estadística correspondiente a la primera variable unidimensional. Con la primera y última columnas construimos la tabla correspondiente a la segunda variable unidimensional. Estas dos distribuciones reciben el nombre de distribuciones marginales. En la última celda aparecerá el total de la última fila y de la última columna, es decir, el número total de elementos estudiados (N).
Además, en esta tabla puede resultar de interés estudiar distribuciones unidimensionales correspondientes a un valor determinado de alguna de las variables, llamadas distribuciones condicionadas.