sábado, 1 de noviembre de 2025

Expedientes. Análisis.

Análisis de datos (I) 

Totales (a)



La documentación contenida en los expedientes son fuentes de información reveladora de la actuación de los SEO por lo que analizarla facilita comprender y evaluar dicha actuación. También es herramienta para la elaboración de propuestas de mejora. Este análisis es, en si mismo, una de las formas en que se expresa la informatización de los expedientes SEO.


Por ese motivo, plantear en estos momentos este análisis no deja de ser una expresión de eso que se llama "adelantar acontecimientos", ya que hay aun muchas cosas pendientes que perfectamente pueden considerarse previas, pero la necesidad obliga: disponemos de datos más que suficientes para usarlos en un análisis que a buen seguro (esa es la esperanza) nos pueden ayudar a comprender hasta donde hemos llegado realmente en el proceso de digitalización y cómo se ha concretado hasta el momento, así como si hemos iniciado realmente la fase de informatización. También espero que nos ayude a definir con mayor seguridad la estructuración de los contenidos.

Con estos más que objetivos, intenciones, inicio en esta entrada el análisis de los datos que se desprenden de la actual conformación de una colección de directorios y subdirectorios que he llamado expedientes SEO. Y lo hago analizando los datos totales, número de expedientes y volumen de documentos, así como su distribución frecuencial. Expongo primero los datos.

En la colección documental tomada como referencia se identifican un total de 480 expedientes que contienen 3516 documentos después de realizada una pormenorizada limpieza de duplicados y de eliminación de archivos que, por diversas razones (ahora entiendo que no siempre acertadas) he considerado (prematuramente) irrelevantes o no pertinentes. 

La conveniencia de este proceder, aunque ahora considero que parcialmente desafortunado, evidencia la dimensión de una carencia no desdeñable: la escasa atención que se hemos prestado históricamente al mantenimiento y actualización de los expedientes digitalizados. Malos inicios, pero reveladores. Por cuantificarla (cierto que por exceso), esa "limpieza" ha supuesto eliminar 749 documentos, o lo que es lo mismo, los expedientes originales estaban compuestos por 4292 documentos y se eliminaron cerca del 18% de ese total (17,45% para ser exactos) para quedarnos primero con la cifra de 3543 y finalmente (tras un segundo ajuste) con los 3516 que servirán de base para el análisis que continua en esta entrada.

Como parte de ese análisis corresponde ahora expresar gráficamente la distribución que presentan estos datos; para ello nada mejor que una gráfica...


... que resulta evidente que muestra todo lo contrario de lo que debería mostrar si el proceso de digitalización (no hablamos aun del que deseamos le suceda) se hubiera desarrollado en forma y profundidad; ambas las que serían de esperar (y desear) por el tiempo transcurrido si hubiera habido interés por que así fuera.

Apreciamos unos valores mínimo (1) y máximo (85) que dan como resultado un recorrido extremadamente amplio (84), que lo es más por todos los vacíos que existen desde un moderado pero relativamente coherente número de documentos previo al extremo superior (39) hasta este (85). Evidentemente, lo que ese valor denota es la presencia de un elemento claramente extraño al conjunto, revelador de lo que podemos considerar (sin entrar ahora en su análisis) una intervención extremadamente anómala o irregular. Y no está mal que este análisis, aun en sus inicios, nos esté revelando motivos para considerarlo de interés: podemos identificar expedientes que, en este caso por exceso, se pueden considerar anómalos y los criterios para identificarlos así: su posición en la distribución de los datos y el vacío de frecuencias que le precede. Podemos advertir aun más claramente su anomalía si comprobamos el efecto ausencia, esto es si comparamos la distribución con y sin su presencia.

El primero, sencillo pero evidente; ya lo vimos: el valor máximo de la distribución pasa de 85 a 39; el segundo es su efecto sobre el recorrido, que pasa de 84 a 38. El valor cuantitativo en ambos indicadores es apabullante: el recorrido se reduce en 46 posiciones/puntos, lo que representa cerca del 55% respecto al efecto de la presencia.

Además el efecto ausencia no tiene una incidencia relevante ahí donde resultaría comprometedor que lo tuviera: como reducción del número de expedientes disponibles para el estudio (sólo se reduce en 1, el 02,21%) y como reducción del número de documentos: aquí el efecto es mayor (85 menos), pero dado el volumen de los disponibles, porcentualmente es perfectamente asumible (sólo representan el 2,5%). Además, con un tratamiento específico y diferenciado, claro estáperfectamente podríamos incorporar este expediente al cuerpo de datos cuanto lo que nos interese sea el estudio de la tipología documental, del contenido de los documentos o del peso de lo cuantitativo en lo estructural.

Aun nos queda observar otro nivel de incidencia de este valor extremo (sobre los estadísticos de posición central), pero habrá que esperar para ello. Aun así ya con lo que tenemos podemos considerar que este expediente distorsiona más que facilita el análisis de datos que nos proponemos, lo que no implica que no contemos con él para determinados aspectos de este análisis.

Pero no termina aquí lo que la mera visualización del gráfico nos aporta, ya que también es sumamente ilustrativo de lo que sucede en el extremo opuesto (el valor mínimo y el inicio) de la distribución y de su forma en general. Y con ello también vienen sus lógicas implicaciones que enlazan con el objetivo principal de esta fase inicial del análisis. Veámoslo con cierto detalle.

Podemos observar en el gráfico que esta distribución está muy lejos de lo que los grandes números proponen como esperable: una distribución normal (campana de Gauss). Lejos de ello, lo que tenemos es una distribución radicalmente sesgada a la izquierda; tanto que nos lleva a plantearnos qué revela el predominio de los valores inferiores (frecuencias 1 y 2, fundamentalmente) y el modo en que destacan del resto. No parece suficiente con considerar que se trata del inicio de la configuración de los expedientes digitalizados SEO, ya que, además de la insuficiencia del número de documentos, no corresponde por cronología. La interpretación alternativa es mucho más plausible: lo que evidencia es la fuerte incidencia, aun hoy en día, de procesos primitivos de conformación de lo que con el tiempo devendrá en expediente digitalizado SEO; esto es, su prehistoria.

Y si es su prehistoria, es interesante por si misma, pero también de cabe tratarla de forma diferenciada a cómo es pertinente tratar los expedientes SEO con visos de serlo realmente. esto es, aquí también interesa estudiar el efecto ausencia.

No obstante ahora nos enfrentamos a un problema que no teníamos respecto a la anomalía del máximo: podemos decir que 1-2 documentos no hacen expediente (volveremos sobre esta cuestión), pero no tenemos la seguridad que cual es el número mínimo de documentos que sí. Y no podemos permitirnos el lujo de excedernos en nuestra pretensión de asegurar la valoración, ya que el planteamiento meramente cuantitativo puede que no de mucho más de sí. Necesitamos una valoración criterial complementaria, pero no tenemos muchos datos para definirla con seguridad, así que lo mejor será resolverlo provisionalmente por la ley de mínimos que sí tenemos disponible: el estudio del efecto ausencia se limitará a los expedientes con uno y dos documentos.

Esta decisión no parece extraña tampoco a la siguiente consideración: desde la perspectiva de la configuración consciente de un expediente digitalizado SEO en la actualidad, en los inicios del proceso son al menos tres los documentos que se incorporarían al expediente: el documento de demanda, el informe psicopedagógico y un tercer documento que puede variar en su contenido, pero que es factible que se presente en formato digital (por ejemplo, el documento de recogida de información del expediente académico del alumno). Muy posiblemente este número sea reducido en extremo, y estemos en realidad más próximos al doble (5 ó 6 documentos), pero al menos 3/4 deberían constar en el expediente inicial.

El problema es que el enfoque del efecto de la ausencia, en este caso, es evidente que no presenta las ventajas que sí apreciamos en el extremo máximo (no reduce significativamente el mínimo ni el recorrido, si es que lo que buscamos es compactar la distribución y darle mayor consistencia) y sí los inconvenientes que no apreciamos en aquel: sí tiene un efecto altamente relevante en cuanto a reducción del número de expedientes:
  • pasaríamos de 480 expedientes a 318, 162 menos, evidentemente muchos.
  • y perderíamos 310 documentos, un número nada despreciable (cerca del 9% del total original) y claramente superior al que perdemos de eliminar el expediente máximo de la distribución.
Parece evidente que lo que justifica eliminar los expedientes de 1 y 2 documentos no son los efectos beneficiosos que tienen para la robustez del conjunto de datos, sino la evidencia de su no pertinencia en cuanto expresión de lo que podemos considerar expediente digitalizado. Pero también resulta evidente que deberemos plantear un estudio específico de esta nada desdeñable muestra de datos, precisamente como forma de analizar las diferencias entre esas formas primitivas y congeladas en el tiempo, sin posibilidad de evolución a expediente, respecto a las que, aun con dudas en su margen inferior (por lo que dijimos) sí es factible que constituyan como mínimo formas iniciales de expediente y presenten posibilidades de evolución a sus formas consolidadas.

Para no hacer más larga entra entrada, entre otros motivos, continuaré con este análisis en una próxima entrada en la que trataré estos mismos temas, ahora desde la perspectiva de los efectos sobre los estadísticos de posición central.