Medidas de tendencia central (I)
Las medidas de tendencia central son tres: moda, mediana y media (aritmética) o promedio. Todas ellas, y más aun las tres juntas, permiten resumir en un valor la característica principal de un conjunto de datos. Cada una de ellas lo hace de modo diferentes, de ahí que sea la similitud y proximidad que mantengan las tres entre sí lo que mejor defina o resuma al conjunto de datos al que pertenecen. Esto es especialmente válido para una distribución normal (la famosa campana de Gauss), en la que canónicamente las tres deben coincidir, esto es, tener el mismo valor.
El más sencillo y universal de estos tres estadísticos es la moda, que se relaciona directamente con el análisis de frecuencia y es posible utilizarla con cualquier escala de medida. Como contrapartida, es la medida de tendencia central que menor capacidad tiene para resumir las características de un conjunto de datos, aunque a veces es la única que podemos usar.
La moda indica el dato con mayor presencia en el conjunto de valores (frecuencias). Se designa como Mo y se define como el valor de la variable que presenta mayor frecuencia absoluta.
Es posible calcular la moda de cualquier tipo de variable (con independencia de la escala de medida a la que pertenezca), pero es posible que un conjunto de datos carezca de moda o, si se prefiere que presente tantas modas (multimodal) que la moda en sí no cumpla la función que se espera. No obstante, lo más frecuente es que un conjunto de datos presente una moda (unimodal) o dos modas (bimodal).
Normalmente en los análisis univariados, el cálculo de la moda es tan sencillo que es suficiente la mera observación de la tabla de frecuencias, cuando disponemos de una tablas de tipo II. Así que la recomendación es obvia: siempre que te sea posible deberemos crea una tabla de frecuencias de tipo II.
Crear este tipo de tabla, partiendo de una mera recopilación de datos, resulta sencillo mediante una hoja de cálculo y el uso reiterado de la función CONTAR.SI(), que requiere la previa identificación de las diferentes opciones de "respuesta" de la variable.
Aunque el caso que voy a presentar es tan sencillo que resulta más costoso usar las fórmulas que realizar el cálculo "a mano", lo utilizaré como ejemplo del modo de proceder: parto del ejemplo de tabla de tipo I creada en LO-Calc que mostré [en esta entrada] y que ahora desarrollo en dos direcciones: - Creando una tabla de frecuencias tipo II haciendo uso de la función CONTAR.SI()
- Y calculando directamente la moda (MODA.UNO()) a partir de la tabla de frecuencias de tipo I
Recuerda que la variable es de tipo nominal (sexo del alumnado) y que, por tanto, sólo existen dos opciones de respuesta (optamos por niño (H) vs. niña(M)).
Crear tabla tipo II. Sobre la columna Dato (sexo) aplico la fórmula CONTAR.SI() con valores de identificación "H" (en D23) y "M" (en D24), creando la tabla tipo II Frecuencias. Por observación, la moda resultante es M(0), dado que su frecuencia es 6, superior al valor de H(1).
Calcular Mo directamente. Tengamos en cuenta, como punto de partida, que las funciones de cálculo de Mo en Calc utilizan como referencia valores numéricos, no string, de ahí que sea necesario, en su caso, realizar una transformación previa. Y eso es lo primero que vamos a hacer.
- A partir de la columna Dato (sexo) creo la columna Cod num transformado H en 1 y M en 0 mediante la función lógica SI() (vg. =SI(C10 = "H";1;0))
- Sobre la columna Cod num aplico la fórmula MODA.UNO() (=MODA.UNO(D$10:D$19)) que posiciono en D21.
- Aclaración: Podría usar la función MODO() con el mismo resultado. Cuando existen dudas sobre la posibilidad de que la muestra no sea unimodal, es preferible utilizar la fórmula MODA.VARIOS().
En cualquier caso, queda demostrado que es posible calcular la moda de esta distribución de la variable sexo (nominal dicotómica); lo que no resulta tan evidente es que conocer la moda nos sea aquí de gran utilidad, dado que realmente no se puede decir que resuma significativamente los datos disponibles. Primero por que son tan pocos que no hace falta resumir nada (de hecho por eso es una distribución de tipo I), y segundo porque siendo como es una variable dicotómica, el conocimiento de la proporción o del porcentaje es posiblemente más informativo.
Veamos ahora otra distribución. En este caso se trata de la variable también nominal, pero no dicotómica (politómica) categoría NEE de un conjunto de 38 sucesos/casos (niños y niñas suena mejor). En principio contamos con una mera lista de sujetos con su categoría NEE (tabla tipo I se podría decir, aunque no es muy apropiado en este caso).
En este caso sí es necesario realizar una previa tabulación de frecuencias en formato tabla II, ya que el número de sujetos/observaciones es suficientemente amplio como para que el mero listado no resulte manejable.
- Crearemos entonces nuestra tabla-resumen (tipo II) identificando el total de opciones de respuesta (5) y usando la función CONTAR.SI() (vg. =CONTAR.SI(F$5:F$42;"da") de forma reiterada.
- Pero para saber cual es la categoría Mo (NEE de mayor frecuencia) no es necesario crear esa tabla tipo II previamente (cierto es que ya nos ofrece la información que necesitamos: Mo es TEA); deberemos asociar un valor numérico a cada categoría mediante un uso anidado de la función SI() (vg. =SI(F5="da";1;SI(F5="df";2;SI(F5="dp";3;SI(F5="tea";4;SI(F5="pd";5)))))) y aplicar la función MODA.VARIOS() (podría ser MODO() o MODA.UNO()) sobre ese listado de valores numéricos (=MODA.VARIOS(G$5:G$42))
- Observación. Observa como a poco que se complica la opción de respuesta (los posibles valores de la variable) la creación de los valores numéricos que requiere la función MODA.UNO() / MODA.VARIOS() se hace sumamente compleja. En estos casos debemos valorar si es conveniente generar una función mediante OOo Basic, por ejemplo.
En este segundo ejemplo resulta evidente la necesidad de crear una tabla-resumen (tabla tipo II), y es a partir de ella que resulta sencillo conocer el valor de Mo. Lo que puede que siga sin estar claro es lo que aporta Mo que no aporte el cálculo del porcentaje de cada opción/categoría de la variable nominal Tipo de NEE.
La mediana es el estadístico que divide una distribución o colección de datos en dos partes iguales, de modo que a su izquierda (por debajo de...) queda el 50% de los valores y a su derecha (por encima de...) queda el otro 50%.
El cálculo manual de la mediana requiere la previa ordenación de los valores de menor a mayor. Así para calcular la mediana del array [1,4,1,6,4,5,3] este deberá ser reordenado previamente de menor a mayor, resultando [1,1,3,4,4,5,6].
Cuando el número total de observaciones o datos es impar, la mediana es el valor que ocupa la posición intermedia del conjunto. En el array anterior, ese valor es [1,1,3,4,4,5,6], ya que es el que ocupa la posición central (en nuestro ejemplo, la 4ª de un total de 7). En este caso la mediana es 4.
Cuando el número total de observaciones o datos es par, la mediana es el resultados de dividir entre dos los valores que ocupan las posiciones intermedias. Por ejemplo, en la matriz de datos [1,1,3,4,4,5], los valores de las observaciones que ocupan las posiciones centrales son [1,1,3,4,4,5], por lo que sumamos 3 + 4 y dividimos el resultado entre dos ((3+4)/2), obteniendo como resultado el valor 3,5.
En LO-Calc contamos con una función para el cálculo de la mediana; se trata de la función MEDIANA(), que recibe como parámetros la posición inicio y final de la lista de datos (vg MEDIANA(C$5:C$43)) y que no necesita que los datos estén previamente ordenados.
Finalmente, la media aritmética o promedio es el estadístico que resulta de sumar todos los valores de una distribución o muestra y dividir este sumatorio entre en número de observaciones o casos. En este array (1,1,3,4,4,5,6), el cálculo del promedio manual se realiza como sigue:
(1+1+3+4+4+5+6)/7 = 3,429
Aunque en este caso los valores están ordenados (de menor a mayor), al contrario del cálculo de la mediana, para calcular el promedio no es necesario que sea así ni siquiera para el cálculo manual, aunque la visualización de los datos (y más aun la representación gráfica) se beneficia mucho de este orden.
Existen otras casuísticas en las que la forma de calcular la media (y su propia denominación) varía, pero la media aritmética, promedio o simplemente media es el caso más común y la la explicada la forma más común de calcularla.
El promedio es el estadístico de posición central más usado por las posibilidades que ofrece para la representación del conjunto y para el cálculo de otros estadísticos; no obstante presenta dos limitaciones serias: no es posible calcularlo en los casos (no con variables nominales no con variables ordinales) y se ve muy influenciado (distorsionado) por los valores extremos.
También disponemos en LO-Calc de una fórmula para el cálculo del promedio (PROMEDIO(B$2:B$8)), siendo la expresión-parámetro el inicio y final del intervalo de celdas sobre las que se calcula este estadístico.
Documento. Desde este enlace puedes descargar una hoja de cálculo donde se presenta un ejemplo de cálculo de los estadísticos moda, mediana y promedio.