lunes, 21 de octubre de 2024

Procedimientos. Datos.

Funciones estadísticas Calc. Medidas de dispersión.

Dentro de la estadística descriptiva, y de complementarias de las [medidas de tendencia central], las medidas de dispersión ocupan un lugar destacado en los cálculos estadísticos. Estas medidas nos informa de la homogeneidad vs. variabilidad o dispersión de los datos, lo que remite y permite el estudio de la distribución de los datos, incluyendo la conocida curva de distribución normal o campana de Gauss. Pero este es un tema mucho más avanzado de lo que ahora nos podemos plantear. Aquí y ahora nos limitaremos a exponer las funciones disponibles en Calc que facilitan su cálculo de la variabilidad de los datos de una muestra.


Ciertamente disponemos en Calc de diferentes funciones para estudiar la dispersión o variabilidad de los datos, aunque no todos de forma unificada en una función. Por ejemplo, no para calcular la primera y más simple medida dispersión, el rango o rango de variación.

Podemos definir el rango como la diferencia entre el valor inferior y el valor superior de una muestra o conjunto de datos. Para su cálculo contamos en Calc con dos funciones: MIN() y MAX(), resultando el rango = MAX() - MIN().

El segundo grupo de funciones relativas a la dispersión, pero más aun relacionadas con el concepto de distribución, son las unidades de posición: centil (percentil), decil y cuartil (1), y a partir de ellas también el cálculo de una segunda medida de dispersión denominada rango intercuartílico, que se define como la diferencia entre el cuartil 1 (25%) y el cuartil 3 (75%), para el cual tampoco disponemos de fórmula o función específica en Calc, por lo que deberemos proceder del mismo modo que para calcular el rango.

Para calcular el rango intercuartílico haremos uso de la función CUARTIL() y calcularemos el CUARTIL(1) (25%) y el CUARTIL(3) (75%) (2), resultando el rango intercuartílico = [CUARTIL(3) - CUARTIL(1)] + 1, aunque en este caso, para su correcta interpretación, se debe proceder al análisis de la fórmula y del propio resultado: 
  • A la diferencia entre el valor CUARTIL(3)-CUARTIL(1) se debe sumar +1 por estar incluidos ambos límite como parte de la distribución (3).
  • La lectura que corresponde realizar del resultado sería algo así como lo que sigue: el 50% del total de valores de la muestra, situados en las posiciones centrales de la distribución (desde el percentil 25 hasta el percentil 75) incluyen valores 2, 3, 4, 5, 6, 7, 8 y 9. Tanto los valores 2 como los valores 9, situados en los límites de esta distribución, se presentan incluidos en parte dentro de ella.
De todas formas, las funciones que más nos interesan como medidas de dispersión son la varianza y la desviación típica o estándar, dado que son las de mayor frecuencia de uso y las que más información nos van a aportar para análisis posteriores.

La varianza se define como el cuadrado de la diferencia de un dato respecto a su media, siendo en realidad el valor medio de estas diferencias. Su fórmula es la siguiente:


Obsérvese que a N (número de observaciones)  se le resta 1 (n-1) en el cálculo de la varianza de la muestra, pero no en el cálculo de la varianza de la población.

La desviación típica o estándar (Dt) resulta de calcular la raíz cuadrada de la varianza. Esto requiere una explicación:
  • En el cálculo de la varianza, al restar del dato la media del conjunto, una vez obtendremos valores positivos y otra negativos, con lo que en el sumatorio de todos ellos, ambos valores (+ y -) tienden a anularse, con lo que el resultado no informaría satisfactoriamente de la variabilidad existente en el conjunto de datos.
  • Para evitarlo, en el cálculo de la varianza, esa diferencia se eleva al cuadrado, con lo que se elimina el efecto del signo (+*+ = +; -*- = +), obteniendo siempre valores positivos, aunque amplificados por el efecto de la operación anterior.
  • La desviación típica viene a ser un reajuste de ese efecto, aplicando a la varianza la operación inversa a elevar al cuadrado, esto es: la raíz cuadrada.
En Calc contamos con las funciones VAR() y DESVEST() como recursos para el cálculo de ambas medidas. Podemos comprobar que efectivamente la Dt deriva de la varianza aplicando al resultado de VAR() la función RAIZ().

En OOo Basic no disponemos de una función que realice el cálculo ni de la varianza ni de la desviación estándar, por lo que deberemos crearlas (4).

NOTAS

(1) No trataremos en esta entrada sobre estas medidas de distribución, aunque sí usaremos la función CUARTIL() por resultar necesaria para el cálculo del rango intercuartílico. Este rango nos permite analizar los datos situados en la zona central de la distribución (del percentil 25 al percentil 75), recordando que la mediana (MEDIANA(), medida de posición central) equivale al percentil 50 y al cuartil 2.
(2) El cuartil 1 (25%) se corresponde con el percentil 25 (PERCENTIL(0,25)) y al cuartil 3 (75%) se corresponde el percentil 75 (PERCENTIL(0,75))
(3) De no hacerlo así, en el análisis del resultados dejaríamos fuera el valor del extremo inferior. Por ejemplo, dada una muestra de resultados, CUARTIL(1) se corresponde con el valor 2 y CUARTIL(3) con el valor 9. La mera diferencia CUARTIL(3)-CUARTIL(1) da como resultado 7, pero en realidad se deberá contabilizar como 8, ya que 2 también está incluido dentro del rango resultante, por lo que el conjunto de valores es de 8: los valores 2-3-4-5-6-7-8-9. Esto no implica que todos los valores 2 y 9 se encuentren dentro del 50% central, pero sí que cualquier valor 2 o 9, considerado individualmente (esto es, como posición individual de un sujeto) lo está.
(4) Para la varianza [ver esta entrada]; para la desviación típica [ver esta otraEn proceso pendientes.