Mostrando entradas con la etiqueta Coeficiente de determinación. Mostrar todas las entradas
Mostrando entradas con la etiqueta Coeficiente de determinación. Mostrar todas las entradas

jueves, 30 de octubre de 2025

Datos. Estadística.

Análisis bivariado

Coeficiente de determinación



A pesar del interés que tiene la covarianza, en realidad no aporta mucha información sobre la relación, mejor sobre la fuerza de la relación entre dos variables. El coeficiente de determinación sí.


Definimos el coeficiente de determinación como la proporción de variabilidad de una variable que es explicada por otra. La primera variable es considerada como variable dependiente (y) y la segunda variable independiente (x), así que lo anterior equivale a decir que este coeficiente indica el porcentaje de varianza de y que es explicado por x (1).

El coeficiente de determinación se representa como R2 (R al cuadrado) y sus valores oscilan entre 0 y 1 (o 0% y 100%), siendo 0 la ausencia de determinación y 1 la determinación plena o perfecta (2).

La fórmula del coeficiente de determinación se describe como el cuadrado de la [covarianza] dividido por el producto de las [varianzas] de las variables. Si deseamos obtener el resultado en porcentaje deberemos multiplicar el resultado obtenido por 100.


Aplicando  esta fórmula a los datos empleados en la entrada sobre la covarianza y usando los cálculos resueltos en ese momento y la fórmula Calc para la varianza, obtenemos los siguientes resultados:

  • Covarianza al cuadrado: 1,209
  • Varianza de x : 2,813
  • Varianza de y: 1,374
  • Coeficiente de determinación: 0,3127 -> 31,27%
Y la interpretación es la que sigue: la varianza de la variable y está determinada en un 31,27% por la variable x (3).

Al contrario de la covarianza, sí disponemos de una fórmula Calc que nos permite realizar el cálculo del coeficiente de determinación...

=COEFICIENTE.R2($Datos.$D4:$V4;$Datos.$D3:$V3)

... formula con la que obtenemos el mismo resultado (R2 = 0,3127) (4)

Por lo que se refiere a Python, de momento no trataremos cómo calcular este coeficiente mediante las bibliotecas conocidas de este lenguaje, ya que no es posible hacerlo directamente (5) o, en otro caso, adelantar acontecimientos.

NOTA

(1) Aun no podemos hablar en estos términos, ya que no hemos tratado sobre la regresión, pero también podríamos definir el coeficiente de variabilidad como la proporción de variabilidad explicado por el modelo de regresión empleado para explicar la relación xy. El coeficiente de regresión es aplicable a cualquier tipo de regresión, no sólo de la lineal.
(2) Incidiendo de nuevo en el estudio de los modelos de regresión, se suelen recomendar valores superiores a 0,85 (85%) para considerar válida la ecuación obtenida. Si el resultado es menor a 0,60 (60%) se considera que ese modelo (esa ecuación) no es fiable, por lo que se recomienda probar con otra representación.
(3) Realmente esto ahora nos importa poco, dado que se trata de un mero ejercicio para la comprensión del coeficiente, pero en otro caso tendríamos que decir que este resultado nos está indicando que la relación xy es una relación débil, positiva pero débil. Podríamos confirmarlo calculando el coeficiente de correlación de Pearson que veremos próximamente (r(xy) = 0,5592).
(4) En este caso no sería necesario crear una función mediante OOo Basic ya que disponemos de la fórmula y el resultado no ofrece duda al coincidir con el que obtenemos mediante el procedimiento "manual".
(5) Sería necesario estudiar la biblioteca scikit-learn o introducir la fórmula para calcular el coeficiente de correlación de Pearson, del que aun no hemos hablado. Podríamos desarrollar un script haciendo uso de las fórmulas de calculo de la covarianza y de las varianzas, pero aportaría poco a lo explicado a partir del Calc y supondría detenernos en exceso en el desarrollo de ese script. Lo que no descarto es tratar estas cuestiones específicamente en una entrada diferenciada de la actual.