Análisis de datos (III)
Totales (c)
Una vez definido el conjunto de registros a analizar paso a describir, en primer lugar, la distribución resultante en base a la tabla de frecuencias y al gráfico de barrar que representa el número de documentos de cada expediente. Este gráfico fue mostrado al final de la [entrada precedente].
Este análisis será el punto de partida para otros posteriores sobre la tipología de los documentos y su distribución temática. Empecemos por mostrar de nuevo el citado gráfico al que hemos añadidos los estadísticos descriptivos.
Observarás, en primer lugar, que he eliminado la referencia a frecuencias 0 en el eje de las x, de modo que se ajusta la percepción de los dados sin que se vea afectado el calculo de los estadísticos que lo describen y que son los siguientes:
- Total de expedientes (N): 318
- Total de documentos: 3206
- Mínimo: 3
- Moda: 3
- Q1(Pc 25): 4 (de Q1 a Q3, círculos verdes)
- Q2 - Mediana (Pc 50): 7
- Q3 (Pc 75): 12
- Rango intercuartílico: 8 (línea azul)
- Máximo: 39
- Recorrido: 36 (línea roja)
- Promedio: 10,08 (cuadrado naranja)
- Dt: 7,70 (segmento Pm-Dt a Pm+Dt, línea naranja)
Observarás también que este gráfico presenta una apariencia muy similar a los anteriores, esto es, cuando incluía los expedientes con 1 y 2 documentos: se trata de una distribución fuertemente sesgada a la derecha en la que moda, mediana y promedio se posicionan según lo esperado en ese tipo de distribución: la moda se posiciona en el valor mínimo (3) y se mantiene un predominio modal descendente desde ese valor hasta el valor 7. Esto hace que se mantenga la dinámica observada en la distribución original y es motivo para pensar que, la menos en este segmento de la distribución es posible que se estén manifestando los dos fenómenos que planteamos en los análisis previos: tanto los conjuntos documentales pre-expediente y los expedientes tal y como se entiende en la actualidad.
La moda sigue siendo también ahora el estadístico con mayor valor explicativo, aunque deberíamos ubicar la centralidad de la distribución en la fusión de las frecuencias 3-4 de forma conjunta (de este modo se acentúa la incidencia cuantitativa de estas frecuencias). También la posición al inicio de la distribución es reveladora de la persistencia de las mismas característica que se pudieron apreciar en la original, lo que permite insistir tanto en la duplicidad tipológica como rasgo de esta distribución como en la inmadurez o estado inicial del proceso de construcción de los expedientes digitalizados.
Incidiendo aun más en esta valoración, destacar que el análisis de los los estadísticos de posición (centiles y mediana) acentúan la pertinencia de ese planteamiento: el escaso recorrido de los estadísticos Q1.Q2/Mediana-Q3 y rango intercuartílico, incluso del mínimo a Q3, frente a la larga cola que presenta la distribución desde Q3 hasta el valor máximo, hace que la distribución deba ser considerar extremadamente sesgada, lo que permite insistir en lo afirmado al final del párrafo anterior: esta distribución muestra la extremada inmadurez de la digitalización de los expedientes SEO.
Finalmente el promedio y la Dt, estadísticos que deberían ser fundamentales en una distribución normalizada, son irrelevantes para el análisis de la presente, y, tal y como se presenta ésta, únicamente sirven para confirmar lo que indica el análisis de la moda y confirman los estadísticos de posición.



No hay comentarios:
Publicar un comentario
Comenta esta entrada