Mostrando entradas con la etiqueta Regresión lineal. Mostrar todas las entradas
Mostrando entradas con la etiqueta Regresión lineal. Mostrar todas las entradas

viernes, 31 de octubre de 2025

Datos. Estadística.

Análisis bivariado

Regresión lineal (simple)



He dejado el estudio de la regresión lineal para el final de este limitado estudio de la estadística descriptiva  por considerar que se sitúa en el límite entre ésta y la estadística inferencial o de análisis causal; en el límite por sus pretensiones, pero sin superarlo.

Realmente existen otras razones para este tratamiento en este momento, no siendo la menos importante el disponer de los conocimientos previos necesarios para entender de qué estamos hablando y cómo podemos analizar e interpretar los datos que obtengamos (1).

Dada una distribución bivariada, tanto su representación gráfica como el uso de una serie (ya vista) de estadísticos nos permiten apreciar la existencia de cierto grado de relación entre las dos variables intervinientes. Esta relación puede ser de diferente grado de intensidad, pero no es suficiente que lo sea débilmente si lo que pretendemos es identificarla como lineal, lo que implica que puede ser descrita matemáticamente mediante una función (lineal) conocida. Esta función dibuja una recta, de lo que deriva su nombre: regresión lineal.

Cuando el grado de relación entre ambas variables es débil, podemos decir que ambas variables son independientes. En ese caso no existe ninguna función matemática que pueda ser aplicada (2).

El objetivo final de todo análisis de regresión es determinar cómo se relacionan dos variables y establecer una función matemática que permita predecir su comportamiento futuro (3). El objetivo de la regresión lineal es, como no puede ser de otro modo, encontrar la función de la recta que mejor se ajuste a la nube de puntos (mínimo error) como base para realizar predicciones.

Se trata, pues, de predecir el comportamiento de la variable endógena (dependiente o explicada) a partir de la variable exógena (independiente o explicativa); pero como no contamos con una definición causal de la relación entre las dos variables, hemos de asumir que ambas pueden ser tratadas indistintamente como endógenas y exógenas, por lo que definiremos dos funciones, aunque trabajemos con una de ellas:
  • y = a + bx (x como variables independiente)
  • x = a + by (y como variables independiente)
... siendo (4)
  • y la variable dependiente (valor a predecir)
  • x la variable independiente (valor que influye en el valor de y)
  • a la ordenada al origen, esto es, valor de y cuando x = 0
  • b la pendiente o cambio en y por cada unidad de cambio en x
También debemos asumir que no existe una distribución lineal exacta, que ninguna recta puede pasar por todos los puntos que dibuja la distribución real. Por ello nos vemos limitados a elegir, de entre todas las rectas posibles, aquella que reduce al mínimo el error o diferencia entre el valor real y el esperado (para y, e =yi -yi'). Dado que esta diferencia puede ser positiva o negativa, utilizamos su suma al cuadrado (Sum(yi -yi')2) como fórmula para el cálculo del error cuadrático total.

Aceptando como objetivo el error cuadrático mínimo, el problema de la regresión lineal se limita a calcular los valores de a y de b.
  • Para a = Md(y) - (Sxy/Sx2) * Md(x)
  • Para b = Sxy/Sx2
Propiedades de la regresión lineal (simple):
  • La pendiente de la recta y sobre x es la [covarianza] (CVxy) dividida por la varianza de x, mientras que la pendiente de x sobre y es la covarianza CVxy dividida por la varianza de y.
  • La recta pasa por el punto formado por las medias Md(x) y Md(y). Este punto se llama centro de gravedad de la distribución bidimensional xy.
  • El producto de las pendientes de las rectas de regresión es igual al coeficiente de [correlación de Pearson] al cuadrado (b+b' = r2)
En todo caso, la viabilidad de la recta de regresión como representación de la distribución se obtiene calculando su bondad de ajuste o [coeficiente de determinación].


NOTAS

(1) Me refiero a los estadísticos univariados y bivariados vistos hasta el momento, sobre todo a los últimos.
(2) Por ahora daremos por válida esta formulación, pero al igual que en el caso de la correlación, también sobre estas cuestiones tendremos que volver más adelante, ya la linealidad no es la única relación posible entre variables. Posiblemente sea la preferida y deseable para ciertos estudios, pero no es la única, como veremos en su momento.
(3) De ahí que habláramos al inicio de esta entrada de que la regresión lineal no se limitaba a la descripción del comportamiento de una (o dos) variable(s).
(4) En otras formulaciones se denominan a y b como alfa y beta o se invierten las posiciones (y = ax + b); en cualquier caso, lo importante es tener claro que la pendiente (para nosotros b) multiplica a la variable independiente y a ello se le suma el valor de la ordenada de origen (para nosotros a).