Mostrando entradas con la etiqueta Medidas de dispersión. Mostrar todas las entradas
Mostrando entradas con la etiqueta Medidas de dispersión. Mostrar todas las entradas

martes, 24 de junio de 2025

Datos. Estadística.

Medidas de dispersión (III)


El tercer conjunto de estadísticos de dispersión tienen en común su dependencia del promedio, además de ser los usados con más frecuencia en los análisis de datos  como medidas de dispersión. Me refiero a la varianza, la desviación típica y, en menor medida, el coeficiente de variación de Pearson.


Entendemos por varianza el sumatorio de las diferencias entre los valores o datos y el promedio del conjunto, elevadas al cuadrado para eliminar el efecto del signo de la diferencia y dividido entre el valor N o población (1).


La desviación típica resulta de calcular la raíz cuadrada de la varianza, lo que equivale a revertir la potencia (al cuadrado) aplicada a la diferencia valor-promedio, con la ventaja (para los cálculo) de haber anulado antes el efecto de los valores negativos de dichas diferencias (2).


Finalmente el coeficiente de variación es una medida de dispersión relativa que resulta de dividir la desviación típica entre la media...

CV = S/Med 

... lo que supone calcular el número de veces que la desviación contiene a la media y permite afirmar el grado de representatividad de la media en una distribución (3).

En Calc contamos con fórmulas para el cálculo de la varianza muestral (VAR()) y poblacional (VAR.P()), lo mismo que para el cálculo de la desviación típica (Dt) muestral (DESVEST()) y poblacional (DESVEST.P()), aunque también podemos calcula la Dt aplicar la raíz cuadra al resultado del cálculo de la varianza.

Además podemos realizar el cálculo de forma manual, desarrollando el procedimiento que deriva del cálculo manual de la varianza:
  1. Calculamos la diferencia entre el dato o PD y la media del conjunto (A3-$G$4)
  2. Elevamos al cuadrado esa diferencia () o realizamos la operación equivalente (B3*B3)
  3. Extendemos ambas fórmulas al conjunto de los datos
  4. Calculamos el sumatorio de 2->3 (SUMA(C3:C48))
  5. Y dividimos el resultado 4 entre N (4) para la varianza poblacional o N-1 para la varianza muestral.
A partir del cálculo de la varianza procedemos a calcular la Dt aplicando la fórmula la de la raíz cuadrada (RAIZ(K28)) (5)

Respecto al coeficiente de variación de Pearson, no existe una función Calc específica, pero el cálculo no presenta mayor dificultad aplicando la fórmula que ya conocemos (6).


NOTAS

(1) Esta fórmula es válida para el cálculo de la varianza poblacional, pero si se desconoce y lo que se calcula es la varianza muestral, el sumatorio de las diferencias se divide entre N-1. La varianza es el estadístico de más transcendencia de los tres, ya que sobre su análisis (análisis de varianza) se construyen modelos de análisis de la llamada estadística inferencial.
(2) La misma modificación de la fórmula que para la varianza respecto a la muestra (N-1). La desviación típica o estándar es posiblemente el estadístico de dispersión de más uso. 
(3) Con frecuencia se expresa como porcentaje, resultando de la fórmula Cv = (S/Med)*100. Si Cv = 0 se considera óptima la representatividad de la media; sí Cv =< 0,3 la representatividad de la media es óptima.
(4) Para calcular N usamos la fórmula CONTAR(A$3:A$48)
(5) Esta posibilidad de cálculo manual también lo es de desarrollo de un procedimiento enteramente basado en OOo Basic, pero resulta innecesariamente complejo pudiendo recurrir, aquí también, al uso de las fórmulas Calc dentro de un script.
(6) Ni en Calc ni en Excel. En ambas se debe recurrir al uso manual de la fórmula S/Med

lunes, 23 de junio de 2025

Datos. Estadística

Medidas de dispersión (II)


La segunda referencia para el análisis de la dispersión de los datos son los cuantiles o medidas de posición (no central). En concreto hablamos de la distancia a la que se encuentran dos medidas cuantiles, como son los cuartiles y los deciles.


En el primer caso se concreta como distancia entre el Q1 y el Q3, lo que da lugar a la medida denominada recorrido intercuartílico

Ri = Q3 - Q1

La segunda medida de dispersión se denomina rango entre percentiles y es la distancia que hay entre el percentil 10 y el percentil 90

Ri = Pc90 - Pc10

En ambos casos no disponemos de funciones Calc para su cálculo directo, pero podemos obtener estos estadísticos a partir de las funciones que nos permiten calcular los cuantiles implicados en las operaciones (1).

La ventaja de estas medidas de dispersión es que se evita la influencia de los valores extremos, deficiencia que sí se produce en las medidas de dispersión basadas en los valores MIN() y MAX() (2). No obstante, estas medidas no son las únicas disponibles ni las más empleadas, especialmente cuanto trabajamos con variables numéricas (intervalo y razón). A estas últimas dedicaremos la siguiente entrada.

NOTAS

(1) Puedes consultar [esta entrada]

(2) Que ya vimos en la [entrada precedente]

Datos. Estadística

Medidas de dispersión (I)


Las medidas de posición (1) normalmente no son suficientes para describir adecuadamente una colección de datos, siendo necesario conocer cómo se distribuyen estos. Además, cuanto más dispersos se encuentran los datos, menos representativas del conjunto resultan las medidas de posición, especialmente las medidas de tendencia central.


Es por esto que inicio con esta entrada el estudio de un conjunto de medidas que analizan esa distribución o dispersión de los datos. Aunque no son las únicas medidas que necesitamos conocer para afrontar el análisis descriptivo univariado de un conjunto de datos (2), sí son críticas para poder iniciarlo en términos prácticos y tomando como eje el análisis de la distribución de los datos, que es nuestro objetivo inmediato.

Dado que estas medidas son varias, he preferido dividir el abordaje del tema en varias entradas. En la actual, que es la primera, nos ocuparemos de dos medidas de dispersión en concreto: el recorrido o rango y el coeficiente de apertura.

Ambos precisan el conocimiento de dos referentes básicos, que son el valor mínimo y el valor máximo del intervalo; estadísticos que, de por sí, no presentan mayor dificultad para su cálculo, cualidad que comparten con los estadísticos derivados antes indicados: es suficiente con haber ordenado los datos de nuestra distribución (3) en orden creciente (de menor a mayor) e identificar los valores mínimo y máximo de los que existen realmente datos, esto es, que se observan con cierta frecuencia) (4).

Aunque, como ha quedado claro antes, realizar estos cálculos es sumamente sencillo, Calc (5) dispone de funciones para automatizar el cálculo del mínimo (MIN()) y del máximo (MAX()) de un conjunto de datos, mientras que su cálculo mediante OOo Basic se vuelve relativamente complejo. Por este motivo utilizaremos esas fórmulas cuando necesitemos saber esos valores tanto cuando realicemos el análisis directamente mediante fórmulas Calc como cuando lo hagamos mediante un script (6).

Necesitamos conocer estos valores por ser la base para el cálculo del recorrido o rango...

R = MAX() - MIN()

... y del coeficiente de apertura...

Cap = MAX()/MIN()

... estadísticos que, como se puede apreciar, no presentan mayor dificultad para su cálculo, pero que tampoco nos permiten una adecuada descripción de los datos, ya que son muy sensibles a los valores extremos, por lo que para el análisis descriptivo de la muestra, además de necesitar la combinación de su análisis con el de las medidas de tendencia central (especialmente la moda y la mediana), también es posible que necesitemos considerar otras medidas de dispersión. De ellas hablaremos en la entrada que sigue a la actual.


NOTAS

(1) Con medidas de posición me refiero a las medidas de tendencia central y a las medidas de posición no central vistas en entradas anteriores [en esta sección].
(2) Para llegar a este nivel aun necesitamos conocer las medidas de concentración y de forma. De ellas nos ocuparemos en otra subsección de la actual.
(3) Aunque se trate de una simpleza, me parece pertinente recordar que estamos hablando de una única colección de datos, dado que nos situamos dentro del análisis univariado, esto es, el análisis de una única variable.
(4) El cual no tiene por qué coincidir con el valor mínimo teórico. Del mismo modo sucede con el máximo. Por ejemplo, una prueba tiene como valor o resultado mínimo el 0 (0 aciertos) y el máximo el número máximo de puntos posibles, que son tantos como permita el número de ítem y el valor resultante del sumatorio de todas las puntuaciones de cada uno de los ítem. Por ejemplo, en una prueba de 25 ítem, el máximo teórico sería 25 si cada uno de los ítem vale 1 punto; pero valdrá 50 si cada ítem vale 2 puntos. La diferencia entre los valores teóricos mínimos y máximos frente a los valores (reales) del mínimo y del máximo es en si misma interesante para el análisis de los resultados de un colectivo en una prueba, pero carecen de interés para el tema que nos ocupa en esta entrada; no obstante es necesario diferenciar conceptos.
(5) También Excel
(6) Para ello recuerda los visto [en esta entrada]