Funciones estadísticas Calc. Medidas de tendencia central.
Dentro de las funciones Calc, ocupan un lugar importante para el trabajo de los SEO las funciones estadísticas. Vamos a ocuparnos en esta entrada de las funciones que nos permiten calcular las medidas de tendencia central.
Dentro de la llamada estadística descriptiva, las medidas de tendencia central ocupan un lugar destacado, ya que son las que nos permiten resumir en un único valor todo el conjunto de valores de la muestra. Esto implica que dicho valor representa el centro respecto al cual se encuentra el conjunto de datos.
Las medidas de tendencia central más utilizadas son la moda, la mediana y la media o promedio. Para su cálculo disponemos en Calc de varias funciones, de las que trataremos en esta entrada (1).
Empezando por la moda (el valor o los valores que más se repiten en una muestra), en Calc contamos con dos funciones: MODA.UNO() y MODA.VARIOS(). La primera encuentra en la muestra y devuelve el primer valor que más se repite; esto no garantiza que no existan otros valores con la misma (máxima) frecuencia muestral, por lo que es conveniente aplicar de forma complementaria la segunda función (MODA.VARIOS()), ya que nos permite observar si la muestra o conjunto de datos es, cuanto menos, bimodal (dos modas). MODA.VARIOS() encuentra y devuelve los dos valores con mayor frecuencia en la muestra o conjunto de datos. Esto no garantiza que no haya un tercer valor con también el máximo de frecuencia, pero es suficiente para confirmar que sólo existe una moda (devolverá el mismo valor dos veces) o que la muestra es, cuanto menos, bimodal.
La función que nos permite calcular el valor de la mediana es MEDIANA(), que devuelve el valor que ocupa la posición central en la muestra, por lo que divide ésta en dos partes iguales (50%). Es importante comprender que la función MEDIANA() de Calc da cómo resultado un dato o valor que se sitúa en esa posición, y suele ocurrir que este valor se repita dentro de la muestra o que no se encuentre realmente representado en ella.
En el segundo caso es posible que MEDIANA() dé como resultado un valor con decimales (50,5, por ejemplo), que resulta de dividir entre dos los dos valores que dividen la muestra en partes iguales (50 y 51, por ejemplo), dado que el valor n (número de observaciones de la muestra, para muestras no agrupadas) es par (2).
En ambos caso (valor repetido y valor inexistente) debemos interpretar que lo que nos devuelve MEDIANA() no es el valor en sí, sino la posición: cuando el valor se repite lo que quiere decir es que el valor x-mediana ocupa la posición que divide la muestra en dos partes iguales (50%) (3); cuando nos devuelve un valor con decimales, lo que quiere decir es que la posición que divide la muestra en dos partes iguales se sitúa en la posición intermedia de dos valores presentes en la muestra, por lo que utiliza ambos (a+b/2) para obtener la posición mediana.
Mientras que la moda parte del análisis de frecuencias y la mediana de los valores posicionales, la media aritmética o promedio resulta, como sabemos, del sumatorio de los valores de y (los datos muestrales observados) dividido entre el valor n (número de observaciones).
Aunque Calc cuenta con varias funciones (4), la que aquí nos interesa por similitud funcional con las anteriores medidas y por frecuencia de uso, es la que se denomina PROMEDIO(), que devuelve un valor numérico, frecuentemente con parte decimal, resultante de la aplicación de la fórmula anterior.
Debemos tener en cuenta que el valor devuelto por PROMEDIO() es sensible a distorsiones derivadas de valores extremos (muy bajos o muy altos), por lo que no siempre es una medida central que resuma adecuadamente los valores muestrales. Tampoco lo es cuando la variabilidad de los datos es muy elevada, pero de eso hablaremos en otra entrada (5).
NOTAS
(1) De las funciones Calc, no de las medidas propiamente dichas, ya que no es este el objetivo de este Blog. Para una revisión de los conceptos y cálculos estadísticos de estas medidas hay abundante información en la red, además de amplia bibliografía. Sólo a título de muestra, [ver aquí] para una exposición de las medidas de tendencia central y de dispersión.
(2) Si n es impar nos devolverá un valor numérico entero (sin parte decimal).
(3) Muy probablemente ese valor que se repite también ocupará otras posiciones, inferiores a 50% y superiores, pero uno de sus representantes muestrales siempre se situará en esa posición central. Una forma de comprobarlo es ordenar la lista de datos y generar una columna precedente en la que escribiremos el orden sucesivo de posiciones, aplicando también la función MEDIANA() a esta columna. Buscaremos el valor resultante con el dato que corresponda en la columna de valores reales, que deberá coincidir con el calculado por MEDIANA() sobre dicha columna de datos.
(4) Concretamente MEDIA.ACOTADA(), MEDIA.ARMO() y MEDIA.GEOM()
(5) Al contrario de lo que sucede con las funciones Calc de medida del tiempo, con contamos en OOo Basic con funciones Built-In equivalentes a estas funciones, por lo que deberemos crearlas o trabajar directamente con las funciones Calc siguiendo el procedimiento que mostramos en [esta entrada].