Análisis de datos (II)
Totales (b)
Continúo el análisis del total de expedientes y documentos iniciado en la [entrada anterior] para tratar las medidas de posición central y el efecto en ellas de la presencia/ausencia de aquellos expedientes considerados ajenos al objetivo de este análisis: identificar hasta donde sea posible los conjuntos documentales capaces de constituirse en expedientes SEO, a fin de conocer sus características en diferentes dimensiones: cuantitativas, categoriales y estructurales.
Con este objetivo en mente me planteo ahora analizar la información que aportan los estadísticos descriptivos de posición central (moda, mediana y promedio) y cómo se ven afectados por la presencia/ausencia de aquellos elementos que antes identifiqué como potencialmente extraños a los datos relevantes y distorsionantes del análisis a realizar con ellos.
Lo que aporta la gráfica que vimos en ese primer análisis evidencia claramente que estos estadísticos no van a confirmar el ajuste a parámetros de normalidad, por lo que deberemos esperar de ellos otro tipo de aportación, posiblemente no menos interesante.
Analizaremos los tres estadísticos de centralidad (moda, mediana y promedio), empezando por la moda, que es el más evidente en el gráfico; pero antes de que continúes leyendo te sugiero que revises el contenido de [esta entrada] que he elaborado sobre la moda que encaja con el análisis actual.
Podemos aplicar ahora esos planteamientos ya que resulta evidente (por lo que el gráfico muestra)...
... que la distribución está sesgada hacia la izquierda (asimetría positiva), podríamos decir que extremadamente, y que la moda se posiciona sobre el valor mínimo de la distribución, podemos decir que persistentemente. Tenemos pues una moda (1) que destaca sobre el resto de las observaciones (supone algo más del 20% de las observaciones o registros/expedientes, frente al 13% de la frecuencia que la sigue) y se posiciona en el inicio de la distribución (valor mínimo 1).
Podría parecer que estos datos indicaran que estamos ante el inicio de un proceso (el de la configuración de los expedientes digitalizados en una determinada población) si no fuera por tres detalles:
- Consta un proceso previo al supuesto fenómeno: el de la mera acumulación de documentos digitalizados sin más pretensión (etapa pre-expedientes del fenómeno)
- No se corresponde con la cronología de la gestación de los "expedientes". No necesariamente los expedientes con 1 o 2 documentos son los más recientes; incluso es al contrario (un número importante de ellos son los más antiguos del conjunto)
- Y lo que es más importante, la configuración actual de los inicios de un expediente siquiera digitalizado exige un mínimo de documentos que supera las dos modas sucesivas si aplicamos el análisis de incidencia de la ausencia (valores 1 y 2 sucesivamente).
En efecto, si prescindimos del primer valor de la moda (expedientes con un único documento), la nueva moda pasa a ser el valor que le sigue (expedientes con 2 documentos), que se sitúa claramente como moda en una distribución igualmente unimodal, claramente por encima del valor de la frecuencia que sigue (3 documentos por expediente), un 5,5% superior y también al inicio del recorrido (en la nueva posición mínimo), como podemos observar en el nuevo gráfico de frecuencias.
Y si atendiendo a lo indicado en el tercer punto del análisis sobre las exigencias mínimas de un expediente actual, aplicamos también a esta nueva distribución el mismo principio de análisis de ausencia...
... obtenemos un gráfico aparentemente similar pero con una diferencia de matiz que resulta muy reveladora: el peso del valor moda es destacable sobre el conjunto de expedientes (supone el 13,5% del total de expedientes, por debajo de los porcentajes de las modas precedentes ), pero (y es lo más destacable) a escasa distancia del valor que le sigue (que sigue siendo el siguiente en la distribución, esto es, el valor 4).
- Refuerza la idea de que es pertinente diferenciar en el análisis la distribución inicial de la distribución resultante de aplicar (hasta el momento actual) el procedimiento de incidencia de ausencia, que en este caso implica eliminar de la base de datos el registro máximo inicial (por lo que distorsiona la muestra, dada su anomalía) y los expedientes con 1 y 2 documentos, por responder a otra realidad.
- La matización tiene que ver con que muy posiblemente los registros del inicio de esta nueva se estén mezclando expedientes que se ajustan más al modelo "pre-expediente" que representan los expedientes excluidos, junto con otros que parecen cumplir los requisitos mínimos, pero sólo por la parquedad de la información que aportan los datos que empleamos en el análisis actual.






No hay comentarios:
Publicar un comentario
Comenta esta entrada