Mostrando entradas con la etiqueta Medidas de posicion. Mostrar todas las entradas
Mostrando entradas con la etiqueta Medidas de posicion. Mostrar todas las entradas

lunes, 12 de mayo de 2025

Datos. Estadística

Medidas de posición no central en Python


Siguiendo con es esquema de trabajo iniciado con las medidas de posición central, después de ver cómo calcular medidas de posición no central manualmente y mediante las funciones Calc, vamos a ver ahora cómo calcularlas empleando Python.


Invertimos el orden del contenido y empezamos en esta ocasión por el cálculo del mínimo y del máximo, ya que no para ello no necesitamos más que los datos sobre los que trabajar (repetimos los usados en la entrada correspondiente)...

datos = [1,1,3,4,4,4,5,5,6,7,7,9]

... y utilizar directamente las funciones min(datos) y max(datos) para obtener los mismos resultados que ya conocemos y que ahora visualizamos con la función print().

El script que desarrolla lo anterior que queda disponible [en este enlace]. Aquí no le voy a conceder más espacio.

El cálculo de cuantiles presenta otras condiciones, empezando por precisar el uso de una biblioteca específica, aunque puede ser la biblioteca integrada en el lenguaje que ya conocemos [de otra entrada]: stadistics. Este sería el script que reproduce lo visto en Calc en una [entrada anterior]. Pormenorizo las secciones para facilitar la comparación y la comprensión del script.

import statistics as st

datos = [1,1, 1,2,2,2,2,3,3,3,3,3,3,3,3,4,4,4,4,4,4,5,5,5,5,5,5,5,5,6,6,6,6,6,6,6,6,6]

# Calculo de cuartiles
cuartil = st.quantiles(datos, n=4)

# Primer cuartil
q1 = cuartil[0]
#Segundo cuartil
q2 = cuartil[1]
#Tercer cuartil
q3 = cuartil[2]

print("Cuartil 1 -> " + str(q1))
print("Cuartil 2 -> " + str(q2))
print("Cuartil 3 -> " + str(q3))

#Cálculo de deciles
decil = st.quantiles(datos, n=10)

#Segundo decil
d2 = decil[2]
#Cuarto decil
d4 = decil[4]

print("Segundo decil -> " + str(d2))
print("Cuarto decil -> " + str(d4))

#Cálculo de percentiles
percentil = st.quantiles(datos, n=100)

#Percentil 12
p12 = percentil[12]
#Percentil 85
p85 = percentil[85]

print("Percentil 12 -> " + str(p12))
print("Percentil 85 -> " + str(p85))

Fundamental importar en primer lugar la biblioteca stadistics (import statistics as st) y disponer, al menos, de una lista (en este caso datos = []; omito contenido).

El cálculo u obtención de un valor cuantil se basa en el uso de la función quantiles() del paquete stadistics (st.quantiles()), la cual recibe dos parámetros (st.quantiles(datos, n=4)): 
  • El conjunto de datos (lista datos en nuestro caso)
  • Y un valor numérico asociado a n (en el ejemplo n=4), que expresa el número de partes en las que la función va a dividir a la colección o lista de datos.
En la primera parte del script deseamos calcular cuartiles, por lo que n = 4. Después, cuando deseamos obtener un cuartil en concreto, lo que hacemos es indicarlo por medio de un valor numérico que indica la posición de esa parte. Por ejemplo, si (cuartil = st.quantiles(datos, n=4)), para obtener el cuartil 1 pediremos (q1 = cuartil[0]); y para pedir el tercer cuartil (q3 = cuartil[2]).

Si lo que deseamos es obtener deciles, dividiremos el conjunto en 10 partes (decil = st.quantiles(datos, n=10)) y si precisamos calcular percentiles en 100 (percentil = st.quantiles(datos, n=100)).

Te dejo en [este enlace] acceso al script.

Datos. Estadística

Mínimo y máximo


Entendiéndolos  como primera y última posición de una distribución, el concepto y cálculo de el mínimo y el máximo son extremadamente sencillos, por lo que no parece que merezcan que les dediquemos una entrada; pero es necesario para la lógica del contenido y de contenidos posteriores. Y por otras razones.


No hace falta gastar mucha neurona para entender que el mínimo es el valor más bajo de una distribución que realmente alguien obtuvo en una muestra de sucesos. Por ejemplo, la nota más baja de una prueba. Tampoco su cálculo parece especialmente complicado: es suficiente con ordenar los valores de menor a mayor. El primero de ello es el mínimo.

Algo similar sucede con el máximo, que es su (extremo) contrario y que también se "calcula" del mismo modo, pero fijándonos ahora en el extremo superior.

Dada esta simplicidad, llama la atención que Calc (y Excel) cuenten con funciones específicas para calcula estos estadísticos; y no sólo una, aunque por ahora nos limitaremos a la de mayor uso:
  • MIN(B$2:B$13) para el mínimo...
  • y MAX(B$2:B$13) para el máximo.
Una de las razone de este interés es que ambas delimitan uno de los estadísticos de dispersión. Otra puede ser su importancia en el análisis del comportamiento de un test en términos de funcionamiento de los ítem. Pero ambas son cuestiones para trata en otro momento.

domingo, 11 de mayo de 2025

Datos. Estadística

Medidas de posición no central: cuantiles


Antes de tratar sobre las medidas de dispersión conviene hablar de las medidas de posición o cuantiles. De este modo, cuando tratemos las medidas de dispersión, concretamente cuando hablemos del intervalo intercuartílico, ya sabremos de qué estamos hablando.


Podríamos empezar por decir que, en realidad, ya hemos hablado (algo) de las medidas de posición al hablar de la mediana, ya que es una medida central de posición que, como dijimos, permite establecer el punto (el valor) que divide el conjunto en dos partes iguales. Pero precisamente por tratarse de una medida de posición central su conocimiento no es suficiente para dar por conocidas el resto de las medidas de posición (no centrales).

En lo que sí coinciden en, digámoslo para que se entienda, en el concepto básico: la "posicionalidad", que no debemos confundir (y motivos hay para ello) con la "proporcionalidad": igual que la mediana no es el 50% de la muestra, tampoco el resto de las medidas lo son a un valor porcentual dado, aunque lo tengan de base.

Me explico: las medidas de posición o cuantiles son las siguientes:
  • centiles, que no son tantos por ciento, dividen el conjunto de posiciones en 100 partes iguales.
  • deciles, que no son agrupaciones en base 10 de los centiles, dividen el conjunto de posiciones en 10 partes iguales.
  • quintiles, que no son equivalentes en sentido estricto a porciones de 20% y sus múltiplos. Los quintiles dividen las posiciones en cinco partes iguales.
  • y cuartiles, que no son equivalentes en sentido estricto a porciones de 25% y sus múltiplos. Estos dividen las posiciones en cuatro partes iguales.
Aunque percentiles y porcentajes están muy relacionados, se trata de conceptos diferentes: el porcentaje nos permite calcular una cantidad como parte de una fracción entre cien partes iguales. El percentil nos indica la posición de un dato para dejar por debajo un tanto por ciento determinado. El porcentaje se refiere al número de observaciones y el percentil al valor de la observación asociada a ese número de observaciones.

Cuando decimos que el 50% de los niños de un grupo han alcanzado resultados satisfactorios en lo referente al logro de un determinado aspecto de una competencia (!qué arduo resulta este discurso competencial¡) no estamos diciendo lo mismo que si afirmamos que una puntuación X divide al grupo en dos partes iguales.

Que a ese punto (y a esa puntuación) la llamemos percentil 50, decil 5, segundo cuartil o mediana no deja de ser una suerte que heredamos del hecho de que hablamos el lenguaje de la distribución equitativa (en partes iguales, concretamente en base 100) de esas particiones. Esto es: que todos estos conceptos están relacionados y existen equivalencias entre ellos: el percentil 50 es igual que el 2º cuartil y es igual que la mediana.

El procedimiento para el cálculo (manual) de los cuantiles pasa por las siguientes fases:
  1. Ordenamos las observaciones en orden ascendente (de menor a mayor)
  2. Contamos el número total de observaciones
  3. Aplicamos los procedimientos para calcular el cuantil deseado
Y aquí es donde podemos empezar a encontrarnos con algún que otro problema, ya que el cálculo de los cuantiles, aunque teóricamente es muy sencillo, presenta algunas variaciones según las preferencias de diferentes autores, lo que conlleva no poca molestia o inseguridad para el profano.

Veamos en concreto cómo algunos proponen calcular los cuartiles, cuantiles que, como sabemos, se basan en la división del total de las observaciones en cuatro partes iguales, por lo que el Q1 (cuartil 1) toma como referencia el 25% del total y se define como el valor que deja por debajo el 25% de las observaciones (y equivale al percentil 25; el Q2 el 50% y equivale al quinto decil, al percentil 50 y a la mediana, y el Q3, que deja por debajo el 75% de las observaciones.
  • Para Q1 -> n * (1/4)
  • Para Q2 -> n * (2/4)
  • Para Q3 -> n * (3/4)
Obtendremos unos valores (posicionales) que presentan dos posibilidades:

  • Que esos valores sean números enteros (sin decimales) -> entonces el valor asociado a esa posición se suma con el valor asociado a la posición siguiente y el resultado de esta suma se divide entre dos. Ese valor resultante será el Qx.
  • Que los valores (posicionales) tengan números decimales -> entonces se redondean al entero superior y el valor asociado a la posición que resulte será el Qx.
Nota. Existen diferentes métodos para el cálculo de Q1 y Q3, que no siempre arrojan los mismos resultados.

Otra formula que se emplea para calcular el localizador o posición que ocupa determinado cuantil (mejor si se expresa como percentil p) utiliza la siguiente fórmula:
((p/100 *(n-1))+1

Ahora si el localizador (el resultante de la operación anterior) es un número entero, entonces el percentil es igual al valor que corresponde a ese localizador.

Pero si el localizador es un número que contiene decimales entonces...

  1. Redondea hacia abajo el localizador y encuentra el valor que le corresponde
  2. Localiza el valor que corresponde con el inmediatamente superior al anterior
  3. Resta 1 de 2
  4. Multiplica la diferencia 3 por la parte decimal del localizador original
  5. Suma 4 al valor 1 

... y no es la única propuesta alternativa (y enrevesada)...

Resumiendo, aunque conceptualmente un valor cuantil no presenta especiales dificultades de comprensión, y su cálculo se supone sencillo, en la práctica puede complicarse mucho más de lo deseado, especialmente porque las diferentes fórmulas de cálculo no siempre ofrecen los mismos resultados. eso sí, operacionalmente estas diferencias no suelen afectar al manejo práctico de estos estadísticos.

Por fortuna incluso las hojas de cálculo disponen de fórmulas que nos permiten calcular cuartiles y percentiles. Dada la equivalencia entre percentiles y el resto de los cuantiles, podemos usar su fórmula para calcular, por ejemplo, los deciles o los quintiles.

En Calc, la función de cálculo de los cuartiles es la siguiente: CUARTIL(C$6:C$44;1), donde...
  • CUARTIL() es el nombre de la función
  • C$6:C$44 es el primer parámetro, el que define los límites del intervalo de datos sobre el que se va a realizar el cálculo
  • 1 es el segundo parámetro, separado del anterior por ;, identifica, en este caso a Q1. Si se tratase de Q2, sería 2 y si Q3, 3.
Para calcular un percentil la fórmula Calc es la siguiente: PERCENTIL(C$6:C$44;0,2). En este caso observa que el valor del segundo parámetro se expresa como valor decimal (0,2), ya que ese parámetro puede adoptar valores entre 0 y 1, correspondiendo 0,2 al percentil 20, que equivale al segundo decil y al primer quintil. Si deseáramos calcular el percentil 85 sustituiríamos el valor por 0,85.

Documentos. Desde este enlace puedes acceder a un documento Calc donde se trabaja con las medidas de posición no central, procedimientos manuales y fórmulas.