¿Qué datos?
Datos estructurados, semi-estructurados y no estructurados
Como resultado de la aplicación de las diferentes tecnologías que hemos visto en las entradas del subapartado anterior, disponemos ahora, on estamos en proceso de disponer, de un conjunto de datos que requieren, posiblemente, algún tipo de tratamiento, incluyendo su ajuste a forma y la eliminación de algún tipo de falla. A esto nos vamos a dedicar en este subapartado, pero antes deberemos aclarar una cuestión que incide muy mucho en este conjunto de tarea, hasta el punto de determinar cómo se pueden desarrollar. Me refiero al tipo de datos sobre el que tendremos que trabajar.
En función del tipo de datos y de cómo se presentan podemos distinguir entre datos estructurados y datos no estructurados. Los primeros son aquellos que, textuales, numéricos o lógicos (esto ahora es secundario), se presentan (o se pueden presentar) organizados (de ahí lo de "estructurados") en forma de tablas (para resumir) de doble entrada, en las que las columnas se deben entender como campos (y tipos de datos) y las filas como registros, lo que en nuestro campo (SEO) suele significar alumno. Los no estructurados más que datos los vamos a entender no como datos sino como segmentos textuales que contienen información (contenidos), y su tratamiento será diferente al que se da a los anteriores.
Pero aun podemos diferenciar un tercer bloque que vamos a denominar semi-estructurados por compartir con los no estructrados algunos rasgos relativos a los aspectos formales, pero mayormente aspiramos a convertirlos en estructurados mediante diversos procedimientos. Este tipo de datos se presentan en tablas insertas en documentos textuales, creados mediante procesadores de texto (.doc y otros) o en formato .pdf. Aun dentro de ellos podremos diferenciar aquellos en los que el continente formal tiene una función de estructuración de la presentación más que del contenido, lo que da lugar a posibles conflictos en su tratamiento posterior como estructurados o no estructurados. Tal es el caso de algunos soportes normativos del modelo de informe psicopedagógico; sin ir más lejos el actual de la Consejería de Educación de Asturias que, rompiendo con su formulaciones anteriores del documento, ha modifica el formato para presentarlo todo él como un conjunto de tablas, en lugar del anterior que combinaba tablas con secciones textuales.
Esos modelos mixtos combinan (o combinaban) datos semi-estructurados con vocación de desarrollo a estructurados y bloque de datos no estructurados (bloques textuales de información). Los primeros permitían procedimientos de automatización basados en estrategias ofimáticas (Combinar correspondencia) o en script (DocAp OOo Basic y/o script Python). Los segundos requieren otros planteamientos, como mínimo basados basados en textos maestros junto con el uso de marcadores, que requieren necesariamente de script, aunque son susceptibles a ser tratados también mediante procedimientos IA, especialmente dentro del campo del PLN (Procesamiento del Lenguaje Natural)
No tengo muy claro que esta deriva hacia la total estructuración del modelo de informe en formato tabla, junto con el uso ocasional de controles de formulario vaya a suponer una mejora en términos de ahorro de trabajo para los profesionales de los SEO, pero sí que va a significar mayor complejidad respecto al tratamiento de automatización parcial en su elaboración que se había logrado con el formato mixto. Pero esta, definitivamente, es ahora una cuestión irrelevante.