Análisis bivariado
Covarianza
La covarianza es un estadístico que nos permite saber con exactitud si existe o no algún tipo de relación entre dos variables. Nos permite, pues, concretar lo que indica una tabla de contingencia.
Cuando ambas variables tienden a aumentar simultáneamente, se considera que la relación entre ambas es positiva y el resultado del estadístico >0; mientras que si una aumenta y la otra disminuye la relación es negativa y el valor del estadístico se aproxima a <0. Se considera que no existe relación si el comportamiento conjunto es aleatorio; en ese caso es valor del estadístico es 0 o próximo a 0.
Necesitamos, por tanto, disponer de una fórmula que nos permita calcular ese valor numérico. Para ello disponemos de dos procedimientos que resumimos en sus fórmulas:
La primera fórmula se refiere al cálculo de la varianza poblacional vs. muestral y diferencia entre la fórmula poblacional...
... también expresada como...
... y la fórmula muestral...
... también expresada como...
En ambos casos, de existir valores de frecuencias superiores a 1, el producto de las diferencias se multiplica por el valor de n(ij) [(x(i)-pm(x))*(y(j)-pm(y)*n(ij)]
Una segunda formulación, simplificada, se expresa como sigue y se identifica como formulación respecto al momento (1)
Veremos a continuación y en primer lugar un ejemplo de cálculo manual de la covarianza utilizando precisamente esta última fórmula.
Supongamos el siguiente conjunto de datos derivado del registro de las variables x (horas de asistencia a clase) e y (resultados en un examen) de una determinada asignatura:
Lo primero que hacemos es convertir esta tabla de distribución en una tabla de contingencia en la que hemos obtenido las frecuencias relativas de cada par xy y ordenado los datos a partir de la variable x.
Sobre ella realizaremos el cálculo de los valores xn e yn, necesarios a su vez para el cálculo de los promedios respectivos, y de xyn, que necesitamos en función de la fórmula de la CV a aplicar.
... permiten realizar la siguiente interpretación: la covarianza x-y (CVxy) indica que existe una relación directa entre las horas de asistencia a clase y los resultados en la prueba: como tendencia se observa que a mayor número de horas de asistencia, mejores resultados.
Realmente nos falta la representación gráfica de estos datos para apreciar mejor la relación que mantienen ambas variables, así que recurrimos a las funciones Calc para crearlo obteniendo el siguiente, que no recoge el peso de las frecuencias de cada par xy, pero que nos ofrece una idea aproximada del tipo de relación que mantienen. En él observamos ciertamente una relación positiva como la descrita antes, aunque bastante matizada en los valores inferiores: realmente parece que existieran dos realidades: los valores "anómalos" iniciales (1 y 3 sesiones de asistencia) y el resto (a partir de 4), apreciándose que es en esta segunda donde se puede apreciar con mayor seguridad la tendencia que detecta el coeficiente de variación, pero no así en la primera (2).
Si trabajamos con LO-Calc (3) podremos hacer los cálculos necesarios para obtener el CV, pero no disponemos de una función específica para ello, por lo que en realidad hemos desarrollado en la explicación anterior todo lo que Calc nos puede ofrecer: herramientas para el cálculo de las medias y la obtención de los sumatorios (4).
Tampoco con Python obtenemos un resultado inequívoco, salvo que creemos nuestra propia función tomando como referencia una de las fórmulas vistas anteriormente. Lo que sí podemos obtener (en ventaja respecto a OOo Basic) es una matriz de covarianzas, en esta caso (xx)-(xy) |(yx)-(yy)
En todo caso, para la obtención de la matriz de covarianzas necesitamos importar numpy y crear un script como el siguiente (5) en el que lo fundamental es la función np_cov().
import numpy as npx = np.array([6,6,6,1,1,4,4,4,4,4,3,3,5,5,5,5,5,5,8])y = np.array([6,6,6,5,5,5,5,5,5,5,6,6,5,5,5,5,5,5,10])cov_matrix = np.cov(x, y, ddof=1)print(cov_matrix)
El resultado que obtenemos es la matriz de covarianzas antes explicada...
NOTA
(1) Así la denominan Ordoñez y González (2021. pg 118)
(2) De ahí que me refiera a ellos como "anómalos", aunque este calificativo no sea adecuado. Realmente tenemos muy pocos datos (19) como para sacar conclusiones, aunque hablar en términos genéricos, usando términos como "tendencia" y similares puede ser correcto.
(3) De hecho, como vimos, es el soporte empleado para crear el gráfico, pero también las tablas para realizar los cálculos en el cálculo "manual" de CV.
(4) Al no existir una fórmula específica para CV es posible que nos interese crearle mediante OOo Basic, pero no es ahora el momento.
(5) Basado en DataCamp. Tendremos ocasión de trabajar con [esta biblioteca] con más detalle.
(6) Confirmo que la diferencia se debe a la fórmula aplicada en el primer cálculo y que el resultado numpy se debe al uso de la fórmula muestras.
(7) Recuerda que los datos son inventados, aunque verosímiles, por lo que no estamos afirmando que exista esta relación en la realidad, aunque no sería descartable que así fuera.












No hay comentarios:
Publicar un comentario
Comenta esta entrada