lunes, 26 de octubre de 2009

Elementos de Estadística Descriptiva

Elementos de Estadística Descriptiva

Como ya fue explicado la estadística descriptiva permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación.

Entre los sistemas para ordenar los datos se encuentran principalmente dos:
a) la distribución de frecuencias y
b) la representación gráfica.
Estos sistemas de organización y descripción de los datos permiten realizar un análisis de datos univariado, bivariado o trivariado, dependiendo de los objetivos y de la naturaleza de la investigación que se realiza.
Distribución de Frecuencias. Comunmente llamada tabla de frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden mediante la división en clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación de las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar. Una distribución de frecuencias constituye una tabla en el ámbito de investigación.
La distribución de frecuencias puede ser simple o agrupada. La distribución de frecuencias simple es una tabla que se construye con base en los siguientes datos: clase o variable (valores numéricos) en orden descendente o ascendente, tabulaciones o marcas de recuento y frecuencia.
Por ejemplo, si se construye una distribución de frecuencias sobre los resultados finales que arrojó la evaluación de un curso de planeación estratégica para estudiantes de administración correspondientes al semestre agosto-diciembre de 1998,
se tienen los siguientes datos brutos: 86, 80, 84, 84, 74, 88, 87, 84, 74, 77, 77, 82, 68, 78, 67, 74, 66, 86, 65, 88,69 se procede a organizarlos en forma ascendente o descendente y se tiene en orden descendente:

88, 88, 87, 86, 86, 84, 84, 84, 82, 80, 78, 77, 77, 74, 74, 74, 69, 698, 67, 66, 65
posteriormente se registran en una tabla de distribución de frecuencias simple (ver Tabla 4.1). Cuando se pretende “... determinar el número de observaciones que son mayores o menores que determinada cantidad,” (Webster, 1998, p. 27) se utiliza la distribución de frecuencias agrupadas también conocida como distribución de frecuencias acumuladas. La distribución de frecuencias agrupadas es una tabla que contiene las columnas siguientes: intervalo de clase, puntos medios, tabulación frecuencias y frecuencias agrupadas. Los pasos para diseñarla son:

1 Se localizan el computo mas alto y el mas bajo de la serie de datos.

2 Se encuentra la diferencia entre esos dos computos.

3 La diferencia obtenida se divide entre números nones tratando de encontrar un cociente cercano a 15 pero no mayor. Lo anterior indica cuantas clases va a tener la distribución de frecuencias agrupadas y cuál va a ser la magnitud del intervalo de clase.

4 Se determina el primer intervalo de clase y posteriormente se van disminuyendo los límites del intervalo de clase de acuerdo al valor de la magnitud establecida previamente.
El ejemplo planteado en la distribución de frecuencias simples se utilizará tanto para efectos de ejemplificación de la distribución de frecuencias agrupadas como para el diseño de gráficas tipo polígono de frecuencias, histograma y ojiva. En la Figura
4.2 se presenta un ejemplo de una distribución de frecuencias agrupada.

Los computos mayor y menor son las puntuaciones 88 y 65, la diferencia es 88-65=23 y el número de intervalos de clase es 23/3= 7.68.

b) Representación Gráfica. A partir de la distribución de frecuencias se procede a presentar los datos por medio de gráficas. La información puede describirse por medio de gráficos a fin de facilitar la lectura e interpretación de las variables medidas. Los actuales sistemas computacionales como Excel, Lotus Smart Suite, Minitab, SAS-PC, Stath Graph, entre otros permiten obtener representaciones gráficas de diversos conjuntos de datos. Las gráficas pueden ser tipo histograma, polígono de frecuencias, gráfica de series de tiempo, etc,

b1) El Histograma. El histograma “... es una gráfica de barras que permite describir el comportamiento de un conjunto de datos en cuanto a su tendencia central, forma y dispersión,” (Gutiérrez, 1998, p.79). De acuerdo con Glass y Stanley (1994) un histograma no debe ser demasiado plano o esculpado. El ancho es de dos tercios de su altura. Los pasos para elaborar un histograma son (ver Figura 4.1):
1 Se trazan los ejes horizontal y vertical.
2 Se registran marcas equidistantes sobre ambos ejes.
3 Se marcan los puntos medios de cada intervalo de clase sobre el eje horizontal.

b2) El Polígono de Frecuencias. Un método ampliamente utilizado para mostrar información numérica de forma gráfica es el polígono de frecuencia o gráfica de línea. La construcción es similar a la del histograma pero la diferencia radica en que para indicar la frecuencia solo se utiliza un punto sobre el punto medio de cada intervalo. Los pasos para construirlo son (ver Figura 4.2):
1 Se trazan los ejes horizontal y vertical.
2 Se registran marcas equidistantes sobre el eje horizontal y se anotan debajo de cada una de ellas los puntos medios de los intervalos de clase en un orden de menor a mayor.
3 Se registran marcas equidistantes sobre el eje vertical y se anotan a la izquierda de cada una de ellas las frecuencias en orden ascendentes. A partir de ellas se diseña la cuadrícula del espacio enmarcado, trazando las abscisas y ordenadas.

4 Se representa con puntos las frecuencias de cada intervalo de clase. Se toma en cuenta el punto medio de cada intervalo de clase como base y las frecuencias como altura.

5 Se unen con línea gruesa los puntos así determinados.

6 Se registra el título expresando en resumen el asunto o cuestión sobre la que informa la gráfica.

b3) Gráfica de Series de Tiempo. Es una gráfica de línea en la que la línea horizontal representa el tiempo. Es utilizada para representar tendencias como puede ser el tipo de cambio peso-dólar, el índice de precios al consumidor, etc. (ver Figura 4.3).

Estadística descriptiva
La Estadística descriptiva registra los datos en tablas y los representa en gráficos. Calcula los parámetros estadísticos (medidas de centralización y de dispersión), que describen el conjunto estudiado.

Tablas de estadística
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.
Frecuencia absoluta

La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico.
Se representa por fi.

La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N.

Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria.
Frecuencia relativa

La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos.
Se puede expresar en tantos por ciento y se representa por ni.

La suma de las frecuencias relativas es igual a 1.
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado.

Se representa por Fi.
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento.

Ejemplo
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.

En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta.


Distribución de frecuencias agrupadas
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente.
Límites de la clase
Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.
Amplitud de la clase
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.
Marca de clase
La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros.

Parámetros estadísticos

Un parámetro estadístico es un número que se obtiene a partir de los datos de una distribución estadística.
Los parámetros estadísticos sirven para sintetizar la información dada por una tabla o por una gráfica.

Hay tres tipos parámetros estadísticos:

Medidas de centralización
Nos indican en torno a qué valor (centro) se distribuyen los datos.

La medidas de centralización son:
Media aritmética
La media aritmética es el valor promedio de la distribución.
Mediana
La mediana es la puntación de la escala que separa la mitad superior de la distribución y la inferior, es decir divide la serie de datos en dos partes iguales.
Moda
La moda es el valor que más se repite en una distribución.
Medidas de posición
Las
medidas de posición dividen un conjunto de datos en grupos con el mismo número de individuos.
Para calcular las medidas de posición es necesario que los datos estén ordenados de menor a mayor.
La medidas de posición son:
Cuartiles
Los cuartiles dividen la serie de datos en cuatro partes iguales.
Deciles
Los deciles dividen la serie de datos en diez partes iguales.
Los percentiles dividen la serie de datos en cien partes iguales.
Medidas de dispersión

Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.

Las medidas de dispersión son:
Rango o recorrido
El rango es la diferencia entre el mayor y el menor de los datos de una distribución estadística.

Desviación media
La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media.

Varianza
La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media.

Desviación típica
La desviación típica es la raíz cuadrada de la varianza.

1 comentario:

  1. Este post me marea...

    Definitivamente...

    Las estadisticas producen nauseas...

    ResponderEliminar