Medidas de dispersión (I)
Las medidas de posición (1) normalmente no son suficientes para describir adecuadamente una colección de datos, siendo necesario conocer cómo se distribuyen estos. Además, cuanto más dispersos se encuentran los datos, menos representativas del conjunto resultan las medidas de posición, especialmente las medidas de tendencia central.
Es por esto que inicio con esta entrada el estudio de un conjunto de medidas que analizan esa distribución o dispersión de los datos. Aunque no son las únicas medidas que necesitamos conocer para afrontar el análisis descriptivo univariado de un conjunto de datos (2), sí son críticas para poder iniciarlo en términos prácticos y tomando como eje el análisis de la distribución de los datos, que es nuestro objetivo inmediato.
Dado que estas medidas son varias, he preferido dividir el abordaje del tema en varias entradas. En la actual, que es la primera, nos ocuparemos de dos medidas de dispersión en concreto: el recorrido o rango y el coeficiente de apertura.
Ambos precisan el conocimiento de dos referentes básicos, que son el valor mínimo y el valor máximo del intervalo; estadísticos que, de por sí, no presentan mayor dificultad para su cálculo, cualidad que comparten con los estadísticos derivados antes indicados: es suficiente con haber ordenado los datos de nuestra distribución (3) en orden creciente (de menor a mayor) e identificar los valores mínimo y máximo de los que existen realmente datos, esto es, que se observan con cierta frecuencia) (4).
Aunque, como ha quedado claro antes, realizar estos cálculos es sumamente sencillo, Calc (5) dispone de funciones para automatizar el cálculo del mínimo (MIN()) y del máximo (MAX()) de un conjunto de datos, mientras que su cálculo mediante OOo Basic se vuelve relativamente complejo. Por este motivo utilizaremos esas fórmulas cuando necesitemos saber esos valores tanto cuando realicemos el análisis directamente mediante fórmulas Calc como cuando lo hagamos mediante un script (6).
Necesitamos conocer estos valores por ser la base para el cálculo del recorrido o rango...
R = MAX() - MIN()
... y del coeficiente de apertura...
Cap = MAX()/MIN()
... estadísticos que, como se puede apreciar, no presentan mayor dificultad para su cálculo, pero que tampoco nos permiten una adecuada descripción de los datos, ya que son muy sensibles a los valores extremos, por lo que para el análisis descriptivo de la muestra, además de necesitar la combinación de su análisis con el de las medidas de tendencia central (especialmente la moda y la mediana), también es posible que necesitemos considerar otras medidas de dispersión. De ellas hablaremos en la entrada que sigue a la actual.
NOTAS
(1) Con medidas de posición me refiero a las medidas de tendencia central y a las medidas de posición no central vistas en entradas anteriores [en esta sección]. (2) Para llegar a este nivel aun necesitamos conocer las medidas de concentración y de forma. De ellas nos ocuparemos en otra subsección de la actual.
(3) Aunque se trate de una simpleza, me parece pertinente recordar que estamos hablando de una única colección de datos, dado que nos situamos dentro del análisis univariado, esto es, el análisis de una única variable.
(4) El cual no tiene por qué coincidir con el valor mínimo teórico. Del mismo modo sucede con el máximo. Por ejemplo, una prueba tiene como valor o resultado mínimo el 0 (0 aciertos) y el máximo el número máximo de puntos posibles, que son tantos como permita el número de ítem y el valor resultante del sumatorio de todas las puntuaciones de cada uno de los ítem. Por ejemplo, en una prueba de 25 ítem, el máximo teórico sería 25 si cada uno de los ítem vale 1 punto; pero valdrá 50 si cada ítem vale 2 puntos. La diferencia entre los valores teóricos mínimos y máximos frente a los valores (reales) del mínimo y del máximo es en si misma interesante para el análisis de los resultados de un colectivo en una prueba, pero carecen de interés para el tema que nos ocupa en esta entrada; no obstante es necesario diferenciar conceptos.
(5) También Excel