Mostrando entradas con la etiqueta Estadística descriptiva. Mostrar todas las entradas
Mostrando entradas con la etiqueta Estadística descriptiva. Mostrar todas las entradas

lunes, 3 de noviembre de 2025

Datos. Estadística.


Medidas de tendencia central (II)

Moda




Dentro de las medidas de tendencia central, la más sencilla, pero a su vez la más segura en cuanto representación del conjunto de datos cuando las otras dos se ven alteradas por efecto de las peculiaridades de la distribución, es la moda. No obstante, no nos debemos dejar engañar por su aparente simplicidad, ya que puede resultar mucho más informativa, a costa, eso sí, de prestar atención al cumplimiento de ciertas condiciones no siempre explicitadas en la literatura, pero de relevancia para el uso práctico de este estadístico.


No voy a repetir aquí lo ya visto en la [entrada inicial] sobre esta temática, que para eso está, así que me permito ir a lo que me interesa destacar ahora. Tampoco insistiré en la sencillez con la que podemos apreciar la presencia y relevancia de este estadístico desde la simple observación de un gráfico de barras o de frecuencias. Omito también las debilidades que presenta respecto a la mediana y a la media o promedio cuando éstas son realmente representativas, especialmente  cuando lo es la media.

Me interesa que nos centremos ahora exclusivamente en la moda cuando las demás de centralidad no son representativas, especialmente cuando no lo es el promedio. Podría parecer que, en ese caso, la sola posibilidad de disponer de la moda fuera suficiente, pero no lo es; no en cualquier caso, ni cuando la moda es única (distribución unimodal) ni cuando no lo es (bimodal o polimodal). En todos ellos me parece pertinente analizar lo que la moda destaca respecto al resto de las frecuencias y la posición que ocupa en el recorrido de los valores de la variable.

Empecemos por decir que para entender la distribución, no es lo mismo que moda sea una o sean varias (1), ya que cuantas más modas menos moda son; pero también es relevante (2) cuánto representa respecto al total del sumatorio de las frecuencias la distribución (mejor en porcentaje) y en qué posición del recorrido de los valores se sitúa o sitúa el o los valores identificados como moda.

Si la moda es plural puede que lo sea tanto que se pueda considera que la distribución carece de moda (amodal) o que la distribución sea también plural, especialmente que se pudieran diferenciar (con el tiempo) al menos dos distribuciones (3).

Cuanto menos destaque la moda (especialmente cuando la distribución es unimodal) del resto en términos porcentuales respecto al sumatorio de las frecuencias (4) menos moda es; cuanto más, más significado tiene para explicar la distribución en términos estáticos (cómo se presenta en estos momentos) y dinámico (en qué fase del desarrollo se encuentra el fenómeno en relación al conjunto de implicado).

Algo similar (respecto a la "madurez" del proceso) podemos decir del significado de la posición que ocupe la o las modas en el recorrido de la distribución: suponiendo una distribución unimodal, su interpretación no puede ser la misma si se ubica al inicio (en el valor mínimo o cerca de él), en la zona media del recorrido o próxima al máximo (5).

Realmente este último análisis requiere (o se beneficia al menos) del conocimiento de los valores que analizan la distribución (cuantiles) y de la mediana. Pero queda para otra entrada.

NOTAS

(1) Recuerda que disponemos en Calc de dos funciones diferentes, según sea el caso; pero es suficiente con el análisis de la tabla de frecuencias y/o del gráfico (histograma) para observar la incidencia de la moda, incluyendo esta cuestión. 
(2) Y para esto no hay estadísticos.
(3) Esto puede ser más viable cuando existen dos modas y se encuentran separadas en la distribución.
(4) No me atrevo a decir cuanto, pero la diferencia debe ser clara y suficiente para que la moda sea realmente un valor representativo de la centralidad de la distribución.
(5) El significado concreto de esta posición dependerá de la naturaleza del fenómeno estudiado, incluyendo si el interés es por su naturaleza estática o por su posible dinámica, pero un posicionamiento en los extremos indica distribución sesgada a la izquierda o a la derecha en la que se espera una determinada relación entre moda, mediana y promedio que se debería comprobar empíricamente, pero que no resulta más que confirmatoria; mientras que una posición centrada exige el análisis de estos estadísticos para comprobar el tipo de distribución subyacente, posiblemente de tipo normal o gaussiana, o tendente a ella.

viernes, 31 de octubre de 2025

Datos. Estadística.

Análisis bivariado

Correlación (coeficiente de Pearson)



Los análisis de correlación completan el estudio de la relación entre dos variables que iniciamos con la covarianza (1), constituyendo su forma más elaborada, pero también más compleja y sujeta a condiciones. No obstante se observa en la literatura cierta tendencia a simplificar y generalizar, asociando la correlación en términos generales con una de sus concreciones: la correlación entre variables continuas y el índice de correlación más común en estos casos, el coeficiente de correlación de Pearson.


Tal es así que algunos manuales sólo hablan de este coeficiente y en determinados programas (Calc, sin ir más lejos) parece entenderse que el coeficiente de correlación, así en genérico, y el de Pearson (2) son lo mismo.

Aunque se trata evidentemente de un error, tiene su razón de ser: Pearson es el coeficiente de correlación más empleado, siempre que esto es posible, y el más potente.

Su cálculo es relativamente simple, ya que requiere operaciones conocidas: se obtiene dividiendo la covarianza xy entre el producto de las desviaciones típicas de ambas variables.


Este coeficiente se puede calcular también a partir del coeficiente de determinación, ya que equivale a la raíz cuadrada de éste.

La correlación en general muestra la dependencia directa o inversa que existe entre dos variables y su intensidad. Concretamente el coeficiente de correlación de Pearson muestra la dependencia lineal entre dos variables cuantitativas continuas.

Los valores posibles van de -1 a +1, siendo altos los próximos a estos valores y bajos cuanto más próximos estén respecto a 0. En este último caso decimos que no existe correlación entre ambas variables (ambas son independientes), aunque también podría ser que esta correlación no es lineal (pero puede serlo de otro tipo).

Para valorar el grado o intensidad de la correlación podemos aplicar la siguiente escala (3):
  • Valores inferiores a +/- 0,25 suponen que no existe relación suficientemente fuerte entre x e y.
  • Valores entre 0,25 y 0,50 indican una correlación baja.
  • Valores entre 0,50 y 0,75 indican un nivel de correlación moderada
  • Y valores superiores a 0,75 indican una correlación satisfactoria.
Además en CCSS se considera que una correlación superior a 0,80 indica que existe dependencia lineal entre las variables correlacionadas.

En cualquier caso la correlación no supone causalidad, ya que puede ser casual o ser debida a la incidencia de diferentes variables no estudiadas pero intervinientes.

No finalizamos con esta entrada el estudio de la correlación, pero sí es necesario plantearla ahora es estos términos limitados y simplificados para facilitar el desarrollo actual del blog. Más adelante trataremos estas cuestiones, incluyendo las condiciones que se deben cumplir para hacer uso del coeficiente de correlación de Pearson y el estudio de otros coeficientes de correlación.







NOTAS

(1) En realidad aún nos falta tratar sobre la regresión (lineal, fundamentalmente), pero ésta plantea otro enfoque dentro del análisis bivariado, como veremos en su momento.
(2) Calc cuenta con dos fórmulas asociadas a este coeficiente, COEF.DE.CORREL() PEARSON(), que reciben los mismos parámetros y con los que se obtiene el mismo resultado.
(3) Aunque no es la única.

jueves, 30 de octubre de 2025

Datos. Estadística.

Análisis bivariado

Coeficiente de determinación



A pesar del interés que tiene la covarianza, en realidad no aporta mucha información sobre la relación, mejor sobre la fuerza de la relación entre dos variables. El coeficiente de determinación sí.


Definimos el coeficiente de determinación como la proporción de variabilidad de una variable que es explicada por otra. La primera variable es considerada como variable dependiente (y) y la segunda variable independiente (x), así que lo anterior equivale a decir que este coeficiente indica el porcentaje de varianza de y que es explicado por x (1).

El coeficiente de determinación se representa como R2 (R al cuadrado) y sus valores oscilan entre 0 y 1 (o 0% y 100%), siendo 0 la ausencia de determinación y 1 la determinación plena o perfecta (2).

La fórmula del coeficiente de determinación se describe como el cuadrado de la [covarianza] dividido por el producto de las [varianzas] de las variables. Si deseamos obtener el resultado en porcentaje deberemos multiplicar el resultado obtenido por 100.


Aplicando  esta fórmula a los datos empleados en la entrada sobre la covarianza y usando los cálculos resueltos en ese momento y la fórmula Calc para la varianza, obtenemos los siguientes resultados:

  • Covarianza al cuadrado: 1,209
  • Varianza de x : 2,813
  • Varianza de y: 1,374
  • Coeficiente de determinación: 0,3127 -> 31,27%
Y la interpretación es la que sigue: la varianza de la variable y está determinada en un 31,27% por la variable x (3).

Al contrario de la covarianza, sí disponemos de una fórmula Calc que nos permite realizar el cálculo del coeficiente de determinación...

=COEFICIENTE.R2($Datos.$D4:$V4;$Datos.$D3:$V3)

... formula con la que obtenemos el mismo resultado (R2 = 0,3127) (4)

Por lo que se refiere a Python, de momento no trataremos cómo calcular este coeficiente mediante las bibliotecas conocidas de este lenguaje, ya que no es posible hacerlo directamente (5) o, en otro caso, adelantar acontecimientos.

NOTA

(1) Aun no podemos hablar en estos términos, ya que no hemos tratado sobre la regresión, pero también podríamos definir el coeficiente de variabilidad como la proporción de variabilidad explicado por el modelo de regresión empleado para explicar la relación xy. El coeficiente de regresión es aplicable a cualquier tipo de regresión, no sólo de la lineal.
(2) Incidiendo de nuevo en el estudio de los modelos de regresión, se suelen recomendar valores superiores a 0,85 (85%) para considerar válida la ecuación obtenida. Si el resultado es menor a 0,60 (60%) se considera que ese modelo (esa ecuación) no es fiable, por lo que se recomienda probar con otra representación.
(3) Realmente esto ahora nos importa poco, dado que se trata de un mero ejercicio para la comprensión del coeficiente, pero en otro caso tendríamos que decir que este resultado nos está indicando que la relación xy es una relación débil, positiva pero débil. Podríamos confirmarlo calculando el coeficiente de correlación de Pearson que veremos próximamente (r(xy) = 0,5592).
(4) En este caso no sería necesario crear una función mediante OOo Basic ya que disponemos de la fórmula y el resultado no ofrece duda al coincidir con el que obtenemos mediante el procedimiento "manual".
(5) Sería necesario estudiar la biblioteca scikit-learn o introducir la fórmula para calcular el coeficiente de correlación de Pearson, del que aun no hemos hablado. Podríamos desarrollar un script haciendo uso de las fórmulas de calculo de la covarianza y de las varianzas, pero aportaría poco a lo explicado a partir del Calc y supondría detenernos en exceso en el desarrollo de ese script. Lo que no descarto es tratar estas cuestiones específicamente en una entrada diferenciada de la actual. 



Datos. Estadística.

Análisis bivariado

Covarianza



La covarianza es un estadístico que nos permite saber con exactitud si existe o no algún tipo de relación entre dos variables. Nos permite, pues, concretar lo que indica una tabla de contingencia.


Cuando ambas variables tienden a aumentar simultáneamente, se considera que la relación entre ambas es positiva y el resultado del estadístico >0; mientras que si una aumenta y la otra disminuye la relación es negativa y el valor del estadístico se aproxima a <0. Se considera que no existe relación si el comportamiento conjunto es aleatorio; en ese caso es valor del estadístico es 0 o próximo a 0.

Necesitamos, por tanto, disponer de una fórmula que nos permita calcular ese valor numérico. Para ello disponemos de dos procedimientos que resumimos en sus fórmulas:

La primera fórmula se refiere al cálculo de la varianza poblacional vs. muestral y diferencia entre la fórmula poblacional...



... también expresada como...

... y la fórmula muestral...



... también expresada como...


En ambos casos, de existir valores de frecuencias  superiores a 1, el producto de las diferencias se multiplica por el valor de n(ij) [(x(i)-pm(x))*(y(j)-pm(y)*n(ij)]


Una segunda formulación, simplificada, se expresa como sigue y se identifica como formulación respecto al momento (1)

Veremos a continuación y en primer lugar un ejemplo de cálculo manual de la covarianza utilizando precisamente esta última fórmula.

Supongamos el siguiente conjunto de datos derivado del registro de las variables x (horas de asistencia a clase) e y (resultados en un examen) de una determinada asignatura:


Lo primero que hacemos es convertir esta tabla de distribución en una tabla de contingencia en la que hemos obtenido las frecuencias relativas de cada par xy y ordenado los datos a partir de la variable x.


Sobre ella realizaremos el cálculo de los valores xn e yn, necesarios a su vez para el cálculo de los promedios respectivos, y de xyn, que necesitamos en función de la fórmula de la CV a aplicar.


Los resultados obtenidos...


... permiten realizar la siguiente interpretación: la covarianza x-y (CVxy) indica que existe una relación directa entre las horas de asistencia a clase y los resultados en la prueba: como tendencia se observa que a mayor número de horas de asistencia, mejores resultados.

Realmente nos falta la representación gráfica de estos datos para apreciar mejor la relación que mantienen ambas variables, así que recurrimos a las funciones Calc para crearlo obteniendo el siguiente, que no recoge el peso de las frecuencias de cada par xy, pero que nos ofrece una idea aproximada del tipo de relación que mantienen. En él observamos ciertamente una relación positiva como la descrita antes, aunque bastante matizada en los valores inferiores: realmente parece que existieran dos realidades: los valores "anómalos" iniciales (1 y 3 sesiones de asistencia) y el resto (a partir de 4), apreciándose que es en esta segunda donde se puede apreciar con mayor seguridad la tendencia que detecta el coeficiente de variación, pero no así en la primera (2).


Si trabajamos con LO-Calc (3) podremos hacer los cálculos necesarios para obtener el CV, pero no disponemos de una función específica para ello, por lo que en realidad hemos desarrollado en la explicación anterior todo lo que Calc nos puede ofrecer: herramientas para el cálculo de las medias y la obtención de los sumatorios (4).

Tampoco con Python obtenemos un resultado inequívoco, salvo que creemos nuestra propia función tomando como referencia una de las fórmulas vistas anteriormente. Lo que sí podemos obtener (en ventaja respecto a OOo Basic) es una matriz de covarianzas, en esta caso (xx)-(xy) |(yx)-(yy)

En todo caso, para la obtención de la matriz de covarianzas necesitamos importar numpy y crear un script como el siguiente (5) en el que lo fundamental es la función np_cov().

import numpy as np

x = np.array([6,6,6,1,1,4,4,4,4,4,3,3,5,5,5,5,5,5,8])
y = np.array([6,6,6,5,5,5,5,5,5,5,6,6,5,5,5,5,5,5,10])

cov_matrix = np.cov(x, y, ddof=1)
print(cov_matrix)

El resultado que obtenemos es la matriz de covarianzas antes explicada...

... en la que nos interesan los valores (repetidos (xy)-(yx) que se corresponden con 1.099, resultado muy próximo al que obtuvimos en nuestro cálculo (1,042) (6). En cualquier caso, ambos resultados evidencian lo mismo: existe cierta tendencia a que x e y se relacionen en términos positivos: a mayor número de horas de asistencia, mejores resultados en la prueba (7).

NOTA 

(1) Así la denominan Ordoñez y González (2021. pg 118)
(2) De ahí que me refiera a ellos como "anómalos", aunque este calificativo no sea adecuado. Realmente tenemos muy pocos datos (19) como para sacar conclusiones, aunque hablar en términos genéricos, usando términos como "tendencia" y similares puede ser correcto.
(3) De hecho, como vimos, es el soporte empleado para crear el gráfico, pero también las tablas para realizar los cálculos en el cálculo "manual" de CV
(4) Al no existir una fórmula específica para CV es posible que nos interese crearle mediante OOo Basic, pero no es ahora el momento.
(5) Basado en DataCamp. Tendremos ocasión de trabajar con [esta biblioteca] con más detalle.
(6) Confirmo que la diferencia se debe a la fórmula aplicada en el primer cálculo y que el resultado numpy se debe al uso de la fórmula muestras.
(7) Recuerda que los datos son inventados, aunque verosímiles, por lo que no estamos afirmando que exista esta relación en la realidad, aunque no sería descartable que así fuera. 





 

martes, 28 de octubre de 2025

Datos. Estadística

Análisis bivariado

Tabla de contingencia



El estudio bivariado o estudio conjunto de dos (o más) variables comienza con el tratamiento de los datos y presentación mediante tablas de contingencia, que es una presentación de los datos en forma de tabla de doble entrada.


Una tabla de contingencia o de frecuencias conjuntas (tercer nombre que recibe), es una representación en la que los datos son compartidos por dos o más variables.

La construcción de una tabla de contingencia depende del tipo de distribución que presenten las variables que contiene, que, como sabemos, son de tres tipos:
  • Tipo I - Cada par de valores se presenta una única vez.
  • Tipo II - Los pares de valores se presentan más de una vez
  • Tipo III - Los valores de las variables se presentan agrupados en intervalos.
Un ejemplo de tabla de contingencia, basada en la distribución de tipo II (la más frecuente) podría ser la que presenta los datos de la variable CURSO y la variable CALIFICACIÓN. 


En realidad lo que esta tabla representa no es un intento de establecer posibles relaciones entre ambas variables, sino y simplemente facilitar la lectura de los datos que contiene. Para que una tabla sea realmente una tabla de contingencia, esto es, que permita visualizar la posible relación entre dos variables en los términos "correlacionales" que se le supone, las variables presentes deben ser susceptibles de presentar este tipo de relación. Tal podría ser el caso de variables como tipo de estudios y género del alumnado, por poner un ejemplo en el que sí tiene sentido estudiar posibles relaciones entre variables (1).


Esta tabla muestra el alumnado matriculado en diferentes estudios universitarios en las universidades públicas españolas en el curso 2022/2023, diferenciando por carretas (seleccionadas subjetivamente) y sexo del alumnado. El objetivo en este caso es evidente: analizar la relación entre el tipo de estudio y el género del alumnado con la finalidad de valorar la presencia de sesgos por género (2).

Además las tablas de contingencia permiten observar las distribuciones marginales de las variables representadas, que no son otra cosa que el número de veces que aparece cada una de las variables, con independencia de los valores de las demás (3). Estos valores marginales son necesarios para el cálculo de los estadísticos univariados de cada una de las variables que contiene la tabla de contingencia, los cuales, a su vez, son necesarios para el cálculo de estadísticos bivariados.

NOTA

(1) Consulta UNIVbase. Ministerio de Ciencia, Innovación y Universidades. 
(2) No interesa en esta entrada realizar este estudio, pero los datos recogidos ofrecen información muy interesante para el estudio del sesgo por género en los estudios universitarios.
(3) La forma más sencilla de calcular las distribuciones marginales es ir sumando los valores de las filas y las columnas en la misma tabla de contingencia.

miércoles, 22 de octubre de 2025

Datos. Estadística.

Estadística descriptiva

Análisis bivariado


Iniciamos con esta entrada el estudio de las distribuciones bidimensionales o bivariadas, entendiendo por tales aquellas en las que se estudia la incidencia de más de una variable en una distribución y el grado de relación o dependencia que tienen esas variables entre sí, cómo es su relación y qué fuerza tiene.


El estudio de la estadística bivariada comprende los siguientes contenidos:
  • Las tablas de contingencia
  • La covarianza
  • La regresión lineal
  • La bondad de ajuste (coeficiente de determinación)
  • Y los estudios de correlación, destacando el coeficiente de correlación de Pearson.
Dedicaremos las entradas que siguen a la presente al estudio de cada uno de estos contenidos, empezando por las tablas de contingencia.


martes, 2 de septiembre de 2025

Datos. Estadística

Tipificación o normalización de variables


Gracias a la tipificación (1) es posible realizar comparaciones entre variables de diferentes valores, además de referirlas a resultados grupales que, en el caso de distribuciones gaussianas (normales), denominamos normalizados o normativos.


Aunque sin duda podríamos tomar otros estadísticos como referencia, lo cierto es que los empleados para realizar la tipificación de una variable son la media aritmética (promedio) y la desviación típica. Es por ello que, normalmente, estemos trabajando bajo el supuesto de distribución normal (gaussiana) (2).

La puntuación típica resulta de restar la media de la puntuación directa, dividiendo la diferencia entre la desviación típica.

pt =(Pd-pm)/dt

Mediante la primera operación (Pd-pm) conocemos qué diferencia mantiene cada puntuación directa con la puntuación que (en una distribución normalizada) se considera representativa de la distribución. Esa diferencia puede ser negativa, cuando la Pd es inferior a la media, o positiva, cuando es superior.

La segunda operación (dividir la diferencia entre la Dt) nos permite conocer en qué medida está contenida dicha diferencia en la cuantificación de la media de las diferencias. Esto permite reducir los valores resultantes a una escala de media 0, comparable entre diferentes distribuciones de variables, con independencia del tamaño que presenten los valore de las Pd.

Para conocer cómo aplicar este procedimiento mediante Calc-OOo Basic puedes consultar [esta entradaen la que se explica una función que permite realizar este cálculo.

Una vez realizada la tipificación de la variable, para facilitar una mejor interpretación de los resultados es frecuente recurrir al cálculo de la puntuación típica derivada (3), en la que se establece a priori el valor de Media (Md) y de la desviación típica (Dt). La fórmula empleada para realizar esta conversión es la siguiente:

pt_d = (Dt * pt) + Md

Para más detalle en [esta entrada] se pone a tu disposición una función OOo Basic que calcula diversas puntuaciones típicas derivadas


NOTAS

(1) También llamada normalización o estandarización.
(2) En ese supuesto, la tipificación también es útil para el cálculo de probabilidades usando tablas estándar y en el análisis factorial (multivariante)
(3) En las pruebas referida a norma es frecuente usar la puntuación CI, PT entre otras escalas. En el caso del CI, la media es 100 y la Dt es 15.

lunes, 1 de septiembre de 2025

Datos. Estadística.

Medidas de concentración


Además de la curtosis, que también lo es, existen otras y más específicas medidas de la concentración de los valores de una variable; el más empleado en Ciencias sociales es el coeficiente de concentración o índice de Gini (IG o Ico).


El estudio de la concentración vs. equidad remite al análisis de cómo se reparten los valores de una variable, de forma equitativa o desigual, correspondiendo la primera a un mínimo de concentración y la segunda al máximo.

El índice o coeficiente de Gini (IG aquí) es el resultado de dividir el sumatorio de las frecuencias relativas acumuladas entre el sumatorio de la relación entre los valores acumulados y los no acumulados.


El cálculo del coeficiente de Gini requiere calcular previamente los valores de pi y qi.

Para calcular pi aplicaremos la siguiente fórmula pi = Ni/N, siendo Ni la frecuencia acumulada y N la frecuencia total. Como resultado, el valor pi es el cálculo de la frecuencia acumulada relativa.

Por su parte, el valor qi es el valor total de la variable (normalmente, la riqueza nacional en los cálculos socioeconómicos en los que se aplica el índice Gini) y resulta de la siguiente fórmula

qi = xj*nj /Sum xi*ni

... siendo xj*nj los valores acumulados de la variable (riqueza nacional) y  xi*ni los valores no acumulados de la misma variable.

El índice de Gini se emplea para estudiar el nivel de desigualdad asociado al reparto de la riqueza, como es el caso del estudio del grado de equidad en el reparto de la riqueza nacional en los diferentes países del mundo, o en el reparto de ingresos entre los grupos salariales de una empresa, datos que tomaremos como referencia para ejemplificar aquí el cálculo del coeficiente de concentración de Gini.

De una empresa se conocen los grupos salariales y el número de personas pertenecientes a cada uno de ellos:

  • De 600 a 1000 € -> 200 empleados
  • De 1001 a 1500 € -> 50 empleados
  • De 1501 a 2000 € -> 70 empleados
  • De  2001 a 2500 € -> 180 empleados 

Realizando los cálculos pertinentes obtendríamos los siguientes resultados (1):

      • N = 500
      • Sum pi (Ni/N) = 1,540
      • Sum xi*ni = 750000
      • Sum pi*qi = 0,570
      • IG = 0,370

Si tomáramos como referencia las valoraciones del IG en términos de reparto equitativo de la renta nacionales, este resultado coloca a nuestra empresa en un nivel de desigualdad moderada (2).

      • Inferior o igual a 0,29 -> Desigualdad baja
      • De 0,3 a 0,39 -> Desigualdad moderada
      • 0,4 -> Límite de alerta (umbral de desigualdad)
      • 0,4 a 049 -> Desigualdad cercana a niveles peligrosamente altos
      • 0,5 a 0,59 -> Desigualdad alta
      • Igual o superior a 0,6 -> Desigualdad extremadamente alta

NOTAS 

(1) Cálculos realizados mediante hoja Calc. Se tratará el procedimiento en entrada específica (Pendiente)
(2) No obstante, esta clasificación sólo es válida para comparaciones entre naciones, careciendo de sentido en otros términos o comparaciones. Sí puede servir de referencia a calificar como niveles de concentración del índice, tomando como referencia los valores extremos del mismo (0-1). En esto puede ser especialmente útil el umbral 0,4 como referencia para la diferenciación entre niveles bajos de concentración (<04) vs. niveles altos (>0,4), aunque siempre en función de la variable de referencia.  

domingo, 31 de agosto de 2025

Datos. Estadística.

Medidas de forma. Curtosis


La curtosis es el apuntalamiento que presenta una curva de frecuencias, que refleja el nivel de concentración de datos respecto a su valor central (promedio o moda), lo que tiene que ver con un estadístico de dispersión. En la curva normal el valor medio será la media aritmética o promedio y el estadístico de dispersión la desviación típica (dt).



Dado que es necesario contar con un valor de referencia, usamos para ello la curtosis de la curva normal, para la que m4/Dt^4 = 3 (1). Esto es así cuando tomamos como referencia para el cálculo del nivel de curtosis el coeficiente de curtosis de Fisher...


... por lo que el valor del coeficiente para la curva normal es 0 y se denomina mesocúrtica (2).

En caso contrario (cuando no es 0 o no está próxima a 0), es porque la distribución se presenta muy apuntada (leptocúrtica -> g2 > 0), lo que indica que la dt es pequeña, por lo que la mayoría de los datos están muy próximos al valor de la media aritmética. 

Por el contrario, cuando se presenta baja (platicúrtica -> g2 < 0), es porque el valor de la Dt es grande y los datos situados en el centro de la distribución ocupan una superficie importante del área bajo la curva. 







NOTAS

(1) Lo que aquí tenemos es, en realidad, la expresión del cuarto momento respecto a la media dividida entre la Dt a la cuarta. Restar de ese resultado -3 permite  expresar el coeficiente de referencia (el apuntamiento propio de la curva normal) con valor 0, lo que facilita, a su vez, la expresión de la curtosis positiva (+ o leptocúrica) o negativa (- o platicúrtica).
(2) El coeficiente de curtosis de Fisher se aplica a distribuciones unimodales simétricas o moderadamente asimétricas. Este coeficiente es el más usado, pero no el único. Cómo  el grado de apuntamiento equivale al nivel de concentración de los valores, este coeficiente también puede ser usado como medida de concentración. De estas medidas hablaremos en entradas posteriores.

viernes, 29 de agosto de 2025

Datos. Estadística

Medidas de forma. Asimetría (II)


El Coeficiente de asimetría de Pearson, a pesar de la frecuencia con la que se usa, presenta ciertas dependencias de las características de la distribución, que hacen que sólo se pueda utilizar en distribuciones uniformas, unimodales (1) y cuando la asimetría es moderada.



Es por ello que cuando se valoran la simetría y la curtosis (2) para contrastar si se puede aceptar una distribución estadística como normal (3), se usa el coeficiente de asimetría de Fisher.

El coeficiente de asimetría de Fisher (AF) se calcula mediante la siguiente fórmula (4):


Veamos un ejemplo para ver cómo se calcula el coeficiente de Fisher.

Supongamos un conjunto de 10 observaciones de las cuales deseamos conocer si su distribución presenta simetría o asimetría sin crear su representación gráfica (curva de frecuencias derivada de su gráfico de barras. 1 | 2 | 2 | 2 | 2 | 3 | 3 | 4 | 5 | 6.

Primero trabajamos con los datos sin agrupar por frecuencias. Obtenemos los siguientes estadísticos: n = 10 , Pm = 3 , Dt = 3,263. Procedemos a realizar la resta (xi - Pm)^3 y su sumatorio (24). Y dividimos este dato entre el valor n (24/10=2,4). Obtenemos así el valor del tercer momento de la distribución respecto a la media, que dividiremos entre la Dt elevada al cubo (Sx^3), obteniendo como resultado 0,735 (5).

Este resultado indica que este conjunto de datos presenta marcada asimetría positiva (con incidencia de la cola derecha sobre el promedio) (6).






NOTAS

(1) Recuerda que en ese caso se usa la fórmula [3(Pm-M (d)]/Dt, que utiliza un factor de corrección para asemejar el resultado al que se obtendría en caso de que se cumpliera la condición unimodal de la muestra.
(2) De la curtosis hablaremos en entradas posteriores.
(3) Esto es necesario para realizar numerosos contrastes estadísticos dentro de la estadística inferencial.
(4) El numerador coincide con la expresión de tercer momento respecto a la media (mr = (Sum(xi-Pm)^r)/n), que concreta r como elevar al cubo la diferencia xi - Pm. Por el mismo motivo se eleva al cubo la Dt (Sx). Esto permite conservar el signo (+/-)  del resultado, lo que interesa para diferenciar el sesgo hacia la derecha o hacia la izquierda.
(5) Si trabajamos con una tabla de frecuencias, deberemos multiplicar cada par (xi-pm)^3 por su frecuencia (ni), lo que modifica levemente la fórmula del coeficiente AF. En este caso enumerador del tercer momento queda como sigue: Sum(xi-Pm)^3*ni y el tercer momento (Sum(xi-Pm)^3*ni)/n
(6) De hecho, si calculamos los valores mo (2) y md (2,5) y los trasladamos junto con el del promedio al gráfico observaremos que se sitúan de izquierda a derecha como sigue: mo (2) - md(2,5) - pm(3). Esto implica que no coinciden los tres estadísticos de posición central y que la figura que dibuja su gráfico de frecuencias no es simétrica (no se puede dividir en dos partes iguales). El coeficiente de asimetría de Pearson (pm-mo/Dt) da como resultado 0,674.