Mostrando entradas con la etiqueta Estadística. Mostrar todas las entradas
Mostrando entradas con la etiqueta Estadística. Mostrar todas las entradas

jueves, 11 de diciembre de 2025

Datos. Estadística.

Estadística del ítem

Índice de Dificultad del ítem (II)



Ya sabemos en qué consiste el IDi y cómo se calcula. Sobre este índice y sus características puedes leer algo en [esta entrada], pero lo que trataré en la actual son algunos datos que podemos obtener a partir del IDi.


Una buena información sobre los resultados de una prueba consiste, básicamente, en conocer los resultados de cada sujeto y el IDi de cada elemento o ítem de la prueba. Algo así como esto:
Por sencilla que parezca (y que es), esta tabla nos informa de los resultados de cada sujeto, dato a partir del cual podemos realizar cálculo descriptivos sobre la distribución (estadística descriptiva), y también de los IDi de cada uno de los ítem, lo que nos permite calificar cada uno de ellos según criterios de nivel de dificultad. Además, si la muestra de sujetos fuera más amplia y tuviéramos interés, podríamos establecer relaciones entre ambas puntuaciones.

Lo malo es que, con frecuencia es posible disponer de un tipo de puntuación, pero no del otro. Por ejemplo, en PLON-R. Fonología, contamos con datos del IDi de cada elemento de la prueba en función de la edad-base, lo cual no es lo ideal, pero puede ser suficiente para determinados análisis. 

A partir de estos datos tan limitados nos resulta difícil comprender el funcionamiento del test, pero podemos obtener alguna información relevante realizando inferencias a partir de los datos que sí poseemos.

Sabemos que el cálculo del IDi requiere saber el número de sujetos de la muestra (N) y el sumatorio de puntuaciones del ítem (una vez reducido a valores dicotómicos 0 - 1), de modo que IDi = Si/N. En consecuencia, sabido el IDi y N, el cálculo del número de aciertos en el ítem se reduce a aplicar Si = IDi * N

Conocido el valor Si de cada ítem, aplicando la fórmula anterior y realizando la suma de los resultados podemos obtener el total de aciertos y calcular su promedio. Siguiendo el ejemplo anterior...


... obtenemos 3 como promedio de aciertos por sujeto, el mismo que obtendríamos aplicando la fórmula  PROMEDIO() a lo datos Total de la primera tabla (PROMEDIO(H4:H13))

No podemos calcular la Dt, dato que sería de mucho interés para estudiar la distribución de los datos, pero ya tenemos un estadístico que nos puede ser de ayuda para el análisis de los resultados grupales e individuales. En [esta entrada] veremos un ejemplo de ese análisis.

martes, 18 de noviembre de 2025

Datos. Estadística.

Estadística del ítem

Índice de dificultad del ítem



Empezamos esta subsección analizando el que posiblemente sea el índice relacionado con el análisis del ítem más conocido y de más uso... pero también, como anécdota, el de nombre más impreciso.


Es ciertamente anecdótico y no genera mayor dificultad por lo conocido que resulta, pero el propio nombre de índice de dificultad (ID) se opone radicalmente a su naturaleza, ya que refleja de todo lo contrario: el acierto, que no el fallo. Es por eso que también se puede denominar (ahora sí, con toda la razón) índice de facilidad (IF).

Esto es así porque lo que se calcula es el nivel de acierto de un grupo de sujetos respecto a un ítem en concreto.

Así, si 20 alumnos responde a un ítem de una prueba y 15 de ellos lo hacen correctamente (1 * 15 = 15), el IF del ítem es 0,75, o también del 75%, que de las formas se puede expresar. Curiosamente el ID no es 1-IF = 0,25, como correspondería, sino que se asimilan IF = ID y también se usa ID = 15/20.

Los valores del ID van de 0 a 1, existiendo categorizaciones del nivel de dificultad, como es el caso de [la siguiente], adaptada a partir de Cortada (1999):


Clasificación del ítemÍndice de dificultad del ítem
Muy fácilDe 0,81 a 1,00
Relativamente fácilDe 0,66 a 0,80
Dificultad adecuadaDe 0,51 a 0,65
Relativamente difícilDe 0,31 a 0,50
DifícilDe 0,11 a 0,30
Muy difícilDe 0,00 a 0,10

Los ID son sensibles a las personas que responder al ítem, y a su número. Cuanto mayor sea la muestra de participantes en la baremación, más fiables son los resultados de los ID, mientras que muestras pequeñas pueden incidir en resultados de escasa fiabilidad.

Cierta es también la relación entre el nivel de dificultad de los ítem y resultados que puede obtener una muestra de sujetos: a mayores índices de dificultad, resultados más modestos, mientras que si los ítem presentan ID bajos o muy bajos, los resultados serán extraordinariamente altos. Es por ellos que los ID de los ítem deben corresponderse con el tipo de prueba que se quiere crear. Por ejemplo, para un prueba de screening es de esperar que los ítems tengan altos ID y resulten, en su conjunto, relativamente fáciles. En pruebas de selección, lo esperable es lo contrario: la mayoría de los ítem deben ser difíciles a muy difíciles. 

Pero también los sujetos empleados en la baremación de la prueba influyen en los ID de los ítem que la forman. Los sujetos competentes aciertan los ítem de alto nivel de dificultad, mientras que los de bajo nivel son acertados por todos o la mayoría de los sujetos. De ahí que sea necesario controlar también el nivel de conocimiento, aptitud o competencia de los sujetos que participan en la baremación de la prueba para evitar la sobreabundancia de altos o bajos niveles competenciales que puedan afectar a los ID de los ítem realmente observados, distorsionando el resultado del uso de la prueba con sus potenciales usuarios.

Conocer los ID de los ítem, además de permitir mejorar la calidad de las pruebas, también nos permite realizar análisis más ricos de los resultados obtenidos por un sujeto o por un grupo, siempre en función del tipo de prueba empleada y de cómo esté conformada en términos de ID de sus ítem. No es lo mismo que el niño falle (o acierte) los ítem fáciles que los difíciles. El significado de esos errores (o aciertos) puede ser interpretado de forma diferente que si desconocemos su ID.

Otro uso posible de los ID, en este caso los empíricos derivados de la aplicación de la prueba a un grupo, es su referencia respecto a un criterio establecido a priori dentro de un planteamiento de evaluación criterial. Si establecemos como nivel de logro (grupal) un determinado porcentaje y el ID de un subconjunto de ítem cumple/incumple las expectativas, esto nos está informando de lo cerca/lejos que está el grupo de alcanzar la meta de aprendizaje. De aquí podemos, además, derivar análisis en términos de los resultados individuales de determinados sujetos.

En resumen, el análisis del ID/IF del ítem, a pesar de su sencillez, puede ser más complejo de lo que aparenta; pero también servir para más objetivos de los que pudiéramos pensar desde una perspectiva psicométrica estricta.

Como vimos, su cálculo es extremadamente sencillo, por lo que no existen funciones built-in en los servicios de cálculo (Excel o Calc). Para su cálculo es necesario realizar la suma de las puntuaciones del grupo en el ítem y dividir después entre el N del grupo. En consecuencia, siendo B3:B22 la lista de puntuaciones del ítem y A3:A22 el listado de alumnos de un grupo...
  • E3 =SUMA(B3:B22)
  • E4 =CONTARA(A3:A22)
  • E5 =E3/E4
... podría ser el procedimiento se cálculo del ID en Calc.


Datos. Estadística.


Estadística del ítem



El análisis estadístico del ítem hace referencia al análisis de las preguntas de una prueba mediante procedimientos estadísticos para evaluar su calidad, dificultad, poder de discriminación y validez. 

Se basa en el análisis cuantitativo de las respuestas que dan los sujetos a los ítem de una prueba para, a partir de ellas, determinar si un ítem funciona correctamente y si está midiendo lo que se pretende.

El análisis de ítem permite, pues, mejorar la calidad de una prueba y ayuda a resolver los problemas que pueden presentar los propios ítem.

Algunos de los procedimientos empleados  para ello son los siguientes:

En esta subsección de Datos estudiaremos estos procedimientos manteniendo el mismo enfoque práctico empleado en el resto de las entradas de la sección, con aplicaciones en la práctica profesional. Procuraremos también ilustrar el uso de recursos informáticos, desde las utilidades de las hojas de cálculo y sus funciones hasta el desarrollo de script o el uso de bibliotecas especializadas.

Sirva esta sencilla entrada como presentación.

lunes, 3 de noviembre de 2025

Datos. Estadística.


Medidas de tendencia central (II)

Moda




Dentro de las medidas de tendencia central, la más sencilla, pero a su vez la más segura en cuanto representación del conjunto de datos cuando las otras dos se ven alteradas por efecto de las peculiaridades de la distribución, es la moda. No obstante, no nos debemos dejar engañar por su aparente simplicidad, ya que puede resultar mucho más informativa, a costa, eso sí, de prestar atención al cumplimiento de ciertas condiciones no siempre explicitadas en la literatura, pero de relevancia para el uso práctico de este estadístico.


No voy a repetir aquí lo ya visto en la [entrada inicial] sobre esta temática, que para eso está, así que me permito ir a lo que me interesa destacar ahora. Tampoco insistiré en la sencillez con la que podemos apreciar la presencia y relevancia de este estadístico desde la simple observación de un gráfico de barras o de frecuencias. Omito también las debilidades que presenta respecto a la mediana y a la media o promedio cuando éstas son realmente representativas, especialmente  cuando lo es la media.

Me interesa que nos centremos ahora exclusivamente en la moda cuando las demás de centralidad no son representativas, especialmente cuando no lo es el promedio. Podría parecer que, en ese caso, la sola posibilidad de disponer de la moda fuera suficiente, pero no lo es; no en cualquier caso, ni cuando la moda es única (distribución unimodal) ni cuando no lo es (bimodal o polimodal). En todos ellos me parece pertinente analizar lo que la moda destaca respecto al resto de las frecuencias y la posición que ocupa en el recorrido de los valores de la variable.

Empecemos por decir que para entender la distribución, no es lo mismo que moda sea una o sean varias (1), ya que cuantas más modas menos moda son; pero también es relevante (2) cuánto representa respecto al total del sumatorio de las frecuencias la distribución (mejor en porcentaje) y en qué posición del recorrido de los valores se sitúa o sitúa el o los valores identificados como moda.

Si la moda es plural puede que lo sea tanto que se pueda considera que la distribución carece de moda (amodal) o que la distribución sea también plural, especialmente que se pudieran diferenciar (con el tiempo) al menos dos distribuciones (3).

Cuanto menos destaque la moda (especialmente cuando la distribución es unimodal) del resto en términos porcentuales respecto al sumatorio de las frecuencias (4) menos moda es; cuanto más, más significado tiene para explicar la distribución en términos estáticos (cómo se presenta en estos momentos) y dinámico (en qué fase del desarrollo se encuentra el fenómeno en relación al conjunto de implicado).

Algo similar (respecto a la "madurez" del proceso) podemos decir del significado de la posición que ocupe la o las modas en el recorrido de la distribución: suponiendo una distribución unimodal, su interpretación no puede ser la misma si se ubica al inicio (en el valor mínimo o cerca de él), en la zona media del recorrido o próxima al máximo (5).

Realmente este último análisis requiere (o se beneficia al menos) del conocimiento de los valores que analizan la distribución (cuantiles) y de la mediana. Pero queda para otra entrada.

NOTAS

(1) Recuerda que disponemos en Calc de dos funciones diferentes, según sea el caso; pero es suficiente con el análisis de la tabla de frecuencias y/o del gráfico (histograma) para observar la incidencia de la moda, incluyendo esta cuestión. 
(2) Y para esto no hay estadísticos.
(3) Esto puede ser más viable cuando existen dos modas y se encuentran separadas en la distribución.
(4) No me atrevo a decir cuanto, pero la diferencia debe ser clara y suficiente para que la moda sea realmente un valor representativo de la centralidad de la distribución.
(5) El significado concreto de esta posición dependerá de la naturaleza del fenómeno estudiado, incluyendo si el interés es por su naturaleza estática o por su posible dinámica, pero un posicionamiento en los extremos indica distribución sesgada a la izquierda o a la derecha en la que se espera una determinada relación entre moda, mediana y promedio que se debería comprobar empíricamente, pero que no resulta más que confirmatoria; mientras que una posición centrada exige el análisis de estos estadísticos para comprobar el tipo de distribución subyacente, posiblemente de tipo normal o gaussiana, o tendente a ella.

viernes, 31 de octubre de 2025

Datos. Estadística.

Análisis bivariado

Regresión lineal (simple)



He dejado el estudio de la regresión lineal para el final de este limitado estudio de la estadística descriptiva  por considerar que se sitúa en el límite entre ésta y la estadística inferencial o de análisis causal; en el límite por sus pretensiones, pero sin superarlo.

Realmente existen otras razones para este tratamiento en este momento, no siendo la menos importante el disponer de los conocimientos previos necesarios para entender de qué estamos hablando y cómo podemos analizar e interpretar los datos que obtengamos (1).

Dada una distribución bivariada, tanto su representación gráfica como el uso de una serie (ya vista) de estadísticos nos permiten apreciar la existencia de cierto grado de relación entre las dos variables intervinientes. Esta relación puede ser de diferente grado de intensidad, pero no es suficiente que lo sea débilmente si lo que pretendemos es identificarla como lineal, lo que implica que puede ser descrita matemáticamente mediante una función (lineal) conocida. Esta función dibuja una recta, de lo que deriva su nombre: regresión lineal.

Cuando el grado de relación entre ambas variables es débil, podemos decir que ambas variables son independientes. En ese caso no existe ninguna función matemática que pueda ser aplicada (2).

El objetivo final de todo análisis de regresión es determinar cómo se relacionan dos variables y establecer una función matemática que permita predecir su comportamiento futuro (3). El objetivo de la regresión lineal es, como no puede ser de otro modo, encontrar la función de la recta que mejor se ajuste a la nube de puntos (mínimo error) como base para realizar predicciones.

Se trata, pues, de predecir el comportamiento de la variable endógena (dependiente o explicada) a partir de la variable exógena (independiente o explicativa); pero como no contamos con una definición causal de la relación entre las dos variables, hemos de asumir que ambas pueden ser tratadas indistintamente como endógenas y exógenas, por lo que definiremos dos funciones, aunque trabajemos con una de ellas:
  • y = a + bx (x como variables independiente)
  • x = a + by (y como variables independiente)
... siendo (4)
  • y la variable dependiente (valor a predecir)
  • x la variable independiente (valor que influye en el valor de y)
  • a la ordenada al origen, esto es, valor de y cuando x = 0
  • b la pendiente o cambio en y por cada unidad de cambio en x
También debemos asumir que no existe una distribución lineal exacta, que ninguna recta puede pasar por todos los puntos que dibuja la distribución real. Por ello nos vemos limitados a elegir, de entre todas las rectas posibles, aquella que reduce al mínimo el error o diferencia entre el valor real y el esperado (para y, e =yi -yi'). Dado que esta diferencia puede ser positiva o negativa, utilizamos su suma al cuadrado (Sum(yi -yi')2) como fórmula para el cálculo del error cuadrático total.

Aceptando como objetivo el error cuadrático mínimo, el problema de la regresión lineal se limita a calcular los valores de a y de b.
  • Para a = Md(y) - (Sxy/Sx2) * Md(x)
  • Para b = Sxy/Sx2
Propiedades de la regresión lineal (simple):
  • La pendiente de la recta y sobre x es la [covarianza] (CVxy) dividida por la varianza de x, mientras que la pendiente de x sobre y es la covarianza CVxy dividida por la varianza de y.
  • La recta pasa por el punto formado por las medias Md(x) y Md(y). Este punto se llama centro de gravedad de la distribución bidimensional xy.
  • El producto de las pendientes de las rectas de regresión es igual al coeficiente de [correlación de Pearson] al cuadrado (b+b' = r2)
En todo caso, la viabilidad de la recta de regresión como representación de la distribución se obtiene calculando su bondad de ajuste o [coeficiente de determinación].


NOTAS

(1) Me refiero a los estadísticos univariados y bivariados vistos hasta el momento, sobre todo a los últimos.
(2) Por ahora daremos por válida esta formulación, pero al igual que en el caso de la correlación, también sobre estas cuestiones tendremos que volver más adelante, ya la linealidad no es la única relación posible entre variables. Posiblemente sea la preferida y deseable para ciertos estudios, pero no es la única, como veremos en su momento.
(3) De ahí que habláramos al inicio de esta entrada de que la regresión lineal no se limitaba a la descripción del comportamiento de una (o dos) variable(s).
(4) En otras formulaciones se denominan a y b como alfa y beta o se invierten las posiciones (y = ax + b); en cualquier caso, lo importante es tener claro que la pendiente (para nosotros b) multiplica a la variable independiente y a ello se le suma el valor de la ordenada de origen (para nosotros a).


Datos. Estadística.

Análisis bivariado

Correlación (coeficiente de Pearson)



Los análisis de correlación completan el estudio de la relación entre dos variables que iniciamos con la covarianza (1), constituyendo su forma más elaborada, pero también más compleja y sujeta a condiciones. No obstante se observa en la literatura cierta tendencia a simplificar y generalizar, asociando la correlación en términos generales con una de sus concreciones: la correlación entre variables continuas y el índice de correlación más común en estos casos, el coeficiente de correlación de Pearson.


Tal es así que algunos manuales sólo hablan de este coeficiente y en determinados programas (Calc, sin ir más lejos) parece entenderse que el coeficiente de correlación, así en genérico, y el de Pearson (2) son lo mismo.

Aunque se trata evidentemente de un error, tiene su razón de ser: Pearson es el coeficiente de correlación más empleado, siempre que esto es posible, y el más potente.

Su cálculo es relativamente simple, ya que requiere operaciones conocidas: se obtiene dividiendo la covarianza xy entre el producto de las desviaciones típicas de ambas variables.


Este coeficiente se puede calcular también a partir del coeficiente de determinación, ya que equivale a la raíz cuadrada de éste.

La correlación en general muestra la dependencia directa o inversa que existe entre dos variables y su intensidad. Concretamente el coeficiente de correlación de Pearson muestra la dependencia lineal entre dos variables cuantitativas continuas.

Los valores posibles van de -1 a +1, siendo altos los próximos a estos valores y bajos cuanto más próximos estén respecto a 0. En este último caso decimos que no existe correlación entre ambas variables (ambas son independientes), aunque también podría ser que esta correlación no es lineal (pero puede serlo de otro tipo).

Para valorar el grado o intensidad de la correlación podemos aplicar la siguiente escala (3):
  • Valores inferiores a +/- 0,25 suponen que no existe relación suficientemente fuerte entre x e y.
  • Valores entre 0,25 y 0,50 indican una correlación baja.
  • Valores entre 0,50 y 0,75 indican un nivel de correlación moderada
  • Y valores superiores a 0,75 indican una correlación satisfactoria.
Además en CCSS se considera que una correlación superior a 0,80 indica que existe dependencia lineal entre las variables correlacionadas.

En cualquier caso la correlación no supone causalidad, ya que puede ser casual o ser debida a la incidencia de diferentes variables no estudiadas pero intervinientes.

No finalizamos con esta entrada el estudio de la correlación, pero sí es necesario plantearla ahora es estos términos limitados y simplificados para facilitar el desarrollo actual del blog. Más adelante trataremos estas cuestiones, incluyendo las condiciones que se deben cumplir para hacer uso del coeficiente de correlación de Pearson y el estudio de otros coeficientes de correlación.







NOTAS

(1) En realidad aún nos falta tratar sobre la regresión (lineal, fundamentalmente), pero ésta plantea otro enfoque dentro del análisis bivariado, como veremos en su momento.
(2) Calc cuenta con dos fórmulas asociadas a este coeficiente, COEF.DE.CORREL() PEARSON(), que reciben los mismos parámetros y con los que se obtiene el mismo resultado.
(3) Aunque no es la única.

jueves, 30 de octubre de 2025

Datos. Estadística.

Análisis bivariado

Coeficiente de determinación



A pesar del interés que tiene la covarianza, en realidad no aporta mucha información sobre la relación, mejor sobre la fuerza de la relación entre dos variables. El coeficiente de determinación sí.


Definimos el coeficiente de determinación como la proporción de variabilidad de una variable que es explicada por otra. La primera variable es considerada como variable dependiente (y) y la segunda variable independiente (x), así que lo anterior equivale a decir que este coeficiente indica el porcentaje de varianza de y que es explicado por x (1).

El coeficiente de determinación se representa como R2 (R al cuadrado) y sus valores oscilan entre 0 y 1 (o 0% y 100%), siendo 0 la ausencia de determinación y 1 la determinación plena o perfecta (2).

La fórmula del coeficiente de determinación se describe como el cuadrado de la [covarianza] dividido por el producto de las [varianzas] de las variables. Si deseamos obtener el resultado en porcentaje deberemos multiplicar el resultado obtenido por 100.


Aplicando  esta fórmula a los datos empleados en la entrada sobre la covarianza y usando los cálculos resueltos en ese momento y la fórmula Calc para la varianza, obtenemos los siguientes resultados:

  • Covarianza al cuadrado: 1,209
  • Varianza de x : 2,813
  • Varianza de y: 1,374
  • Coeficiente de determinación: 0,3127 -> 31,27%
Y la interpretación es la que sigue: la varianza de la variable y está determinada en un 31,27% por la variable x (3).

Al contrario de la covarianza, sí disponemos de una fórmula Calc que nos permite realizar el cálculo del coeficiente de determinación...

=COEFICIENTE.R2($Datos.$D4:$V4;$Datos.$D3:$V3)

... formula con la que obtenemos el mismo resultado (R2 = 0,3127) (4)

Por lo que se refiere a Python, de momento no trataremos cómo calcular este coeficiente mediante las bibliotecas conocidas de este lenguaje, ya que no es posible hacerlo directamente (5) o, en otro caso, adelantar acontecimientos.

NOTA

(1) Aun no podemos hablar en estos términos, ya que no hemos tratado sobre la regresión, pero también podríamos definir el coeficiente de variabilidad como la proporción de variabilidad explicado por el modelo de regresión empleado para explicar la relación xy. El coeficiente de regresión es aplicable a cualquier tipo de regresión, no sólo de la lineal.
(2) Incidiendo de nuevo en el estudio de los modelos de regresión, se suelen recomendar valores superiores a 0,85 (85%) para considerar válida la ecuación obtenida. Si el resultado es menor a 0,60 (60%) se considera que ese modelo (esa ecuación) no es fiable, por lo que se recomienda probar con otra representación.
(3) Realmente esto ahora nos importa poco, dado que se trata de un mero ejercicio para la comprensión del coeficiente, pero en otro caso tendríamos que decir que este resultado nos está indicando que la relación xy es una relación débil, positiva pero débil. Podríamos confirmarlo calculando el coeficiente de correlación de Pearson que veremos próximamente (r(xy) = 0,5592).
(4) En este caso no sería necesario crear una función mediante OOo Basic ya que disponemos de la fórmula y el resultado no ofrece duda al coincidir con el que obtenemos mediante el procedimiento "manual".
(5) Sería necesario estudiar la biblioteca scikit-learn o introducir la fórmula para calcular el coeficiente de correlación de Pearson, del que aun no hemos hablado. Podríamos desarrollar un script haciendo uso de las fórmulas de calculo de la covarianza y de las varianzas, pero aportaría poco a lo explicado a partir del Calc y supondría detenernos en exceso en el desarrollo de ese script. Lo que no descarto es tratar estas cuestiones específicamente en una entrada diferenciada de la actual. 



Datos. Estadística.

Análisis bivariado

Covarianza



La covarianza es un estadístico que nos permite saber con exactitud si existe o no algún tipo de relación entre dos variables. Nos permite, pues, concretar lo que indica una tabla de contingencia.


Cuando ambas variables tienden a aumentar simultáneamente, se considera que la relación entre ambas es positiva y el resultado del estadístico >0; mientras que si una aumenta y la otra disminuye la relación es negativa y el valor del estadístico se aproxima a <0. Se considera que no existe relación si el comportamiento conjunto es aleatorio; en ese caso es valor del estadístico es 0 o próximo a 0.

Necesitamos, por tanto, disponer de una fórmula que nos permita calcular ese valor numérico. Para ello disponemos de dos procedimientos que resumimos en sus fórmulas:

La primera fórmula se refiere al cálculo de la varianza poblacional vs. muestral y diferencia entre la fórmula poblacional...



... también expresada como...

... y la fórmula muestral...



... también expresada como...


En ambos casos, de existir valores de frecuencias  superiores a 1, el producto de las diferencias se multiplica por el valor de n(ij) [(x(i)-pm(x))*(y(j)-pm(y)*n(ij)]


Una segunda formulación, simplificada, se expresa como sigue y se identifica como formulación respecto al momento (1)

Veremos a continuación y en primer lugar un ejemplo de cálculo manual de la covarianza utilizando precisamente esta última fórmula.

Supongamos el siguiente conjunto de datos derivado del registro de las variables x (horas de asistencia a clase) e y (resultados en un examen) de una determinada asignatura:


Lo primero que hacemos es convertir esta tabla de distribución en una tabla de contingencia en la que hemos obtenido las frecuencias relativas de cada par xy y ordenado los datos a partir de la variable x.


Sobre ella realizaremos el cálculo de los valores xn e yn, necesarios a su vez para el cálculo de los promedios respectivos, y de xyn, que necesitamos en función de la fórmula de la CV a aplicar.


Los resultados obtenidos...


... permiten realizar la siguiente interpretación: la covarianza x-y (CVxy) indica que existe una relación directa entre las horas de asistencia a clase y los resultados en la prueba: como tendencia se observa que a mayor número de horas de asistencia, mejores resultados.

Realmente nos falta la representación gráfica de estos datos para apreciar mejor la relación que mantienen ambas variables, así que recurrimos a las funciones Calc para crearlo obteniendo el siguiente, que no recoge el peso de las frecuencias de cada par xy, pero que nos ofrece una idea aproximada del tipo de relación que mantienen. En él observamos ciertamente una relación positiva como la descrita antes, aunque bastante matizada en los valores inferiores: realmente parece que existieran dos realidades: los valores "anómalos" iniciales (1 y 3 sesiones de asistencia) y el resto (a partir de 4), apreciándose que es en esta segunda donde se puede apreciar con mayor seguridad la tendencia que detecta el coeficiente de variación, pero no así en la primera (2).


Si trabajamos con LO-Calc (3) podremos hacer los cálculos necesarios para obtener el CV, pero no disponemos de una función específica para ello, por lo que en realidad hemos desarrollado en la explicación anterior todo lo que Calc nos puede ofrecer: herramientas para el cálculo de las medias y la obtención de los sumatorios (4).

Tampoco con Python obtenemos un resultado inequívoco, salvo que creemos nuestra propia función tomando como referencia una de las fórmulas vistas anteriormente. Lo que sí podemos obtener (en ventaja respecto a OOo Basic) es una matriz de covarianzas, en esta caso (xx)-(xy) |(yx)-(yy)

En todo caso, para la obtención de la matriz de covarianzas necesitamos importar numpy y crear un script como el siguiente (5) en el que lo fundamental es la función np_cov().

import numpy as np

x = np.array([6,6,6,1,1,4,4,4,4,4,3,3,5,5,5,5,5,5,8])
y = np.array([6,6,6,5,5,5,5,5,5,5,6,6,5,5,5,5,5,5,10])

cov_matrix = np.cov(x, y, ddof=1)
print(cov_matrix)

El resultado que obtenemos es la matriz de covarianzas antes explicada...

... en la que nos interesan los valores (repetidos (xy)-(yx) que se corresponden con 1.099, resultado muy próximo al que obtuvimos en nuestro cálculo (1,042) (6). En cualquier caso, ambos resultados evidencian lo mismo: existe cierta tendencia a que x e y se relacionen en términos positivos: a mayor número de horas de asistencia, mejores resultados en la prueba (7).

NOTA 

(1) Así la denominan Ordoñez y González (2021. pg 118)
(2) De ahí que me refiera a ellos como "anómalos", aunque este calificativo no sea adecuado. Realmente tenemos muy pocos datos (19) como para sacar conclusiones, aunque hablar en términos genéricos, usando términos como "tendencia" y similares puede ser correcto.
(3) De hecho, como vimos, es el soporte empleado para crear el gráfico, pero también las tablas para realizar los cálculos en el cálculo "manual" de CV
(4) Al no existir una fórmula específica para CV es posible que nos interese crearle mediante OOo Basic, pero no es ahora el momento.
(5) Basado en DataCamp. Tendremos ocasión de trabajar con [esta biblioteca] con más detalle.
(6) Confirmo que la diferencia se debe a la fórmula aplicada en el primer cálculo y que el resultado numpy se debe al uso de la fórmula muestras.
(7) Recuerda que los datos son inventados, aunque verosímiles, por lo que no estamos afirmando que exista esta relación en la realidad, aunque no sería descartable que así fuera. 





 

martes, 28 de octubre de 2025

Datos. Estadística

Análisis bivariado

Tabla de contingencia



El estudio bivariado o estudio conjunto de dos (o más) variables comienza con el tratamiento de los datos y presentación mediante tablas de contingencia, que es una presentación de los datos en forma de tabla de doble entrada.


Una tabla de contingencia o de frecuencias conjuntas (tercer nombre que recibe), es una representación en la que los datos son compartidos por dos o más variables.

La construcción de una tabla de contingencia depende del tipo de distribución que presenten las variables que contiene, que, como sabemos, son de tres tipos:
  • Tipo I - Cada par de valores se presenta una única vez.
  • Tipo II - Los pares de valores se presentan más de una vez
  • Tipo III - Los valores de las variables se presentan agrupados en intervalos.
Un ejemplo de tabla de contingencia, basada en la distribución de tipo II (la más frecuente) podría ser la que presenta los datos de la variable CURSO y la variable CALIFICACIÓN. 


En realidad lo que esta tabla representa no es un intento de establecer posibles relaciones entre ambas variables, sino y simplemente facilitar la lectura de los datos que contiene. Para que una tabla sea realmente una tabla de contingencia, esto es, que permita visualizar la posible relación entre dos variables en los términos "correlacionales" que se le supone, las variables presentes deben ser susceptibles de presentar este tipo de relación. Tal podría ser el caso de variables como tipo de estudios y género del alumnado, por poner un ejemplo en el que sí tiene sentido estudiar posibles relaciones entre variables (1).


Esta tabla muestra el alumnado matriculado en diferentes estudios universitarios en las universidades públicas españolas en el curso 2022/2023, diferenciando por carretas (seleccionadas subjetivamente) y sexo del alumnado. El objetivo en este caso es evidente: analizar la relación entre el tipo de estudio y el género del alumnado con la finalidad de valorar la presencia de sesgos por género (2).

Además las tablas de contingencia permiten observar las distribuciones marginales de las variables representadas, que no son otra cosa que el número de veces que aparece cada una de las variables, con independencia de los valores de las demás (3). Estos valores marginales son necesarios para el cálculo de los estadísticos univariados de cada una de las variables que contiene la tabla de contingencia, los cuales, a su vez, son necesarios para el cálculo de estadísticos bivariados.

NOTA

(1) Consulta UNIVbase. Ministerio de Ciencia, Innovación y Universidades. 
(2) No interesa en esta entrada realizar este estudio, pero los datos recogidos ofrecen información muy interesante para el estudio del sesgo por género en los estudios universitarios.
(3) La forma más sencilla de calcular las distribuciones marginales es ir sumando los valores de las filas y las columnas en la misma tabla de contingencia.