miércoles, 5 de noviembre de 2025

Datos. Análisis.

Fases del análisis de datos

Acceso a datos (I)



Parece evidente, por su contenido, que la [entrada anterior] sólo pretendía atender a una necesidad teórica: destacar la importancia de la correcta y fundamentada definición de objetivos; muy justificada necesidad, pero sólo lo es si se aplica correctamente (que no es fácil) en la práctica, cuando nos enfrentamos al desarrollo de un proyecto de análisis concreto. Esta segunda fase, además de la relevancia teórica y procedimental que tiene, también afronta la cuestión básica de disponibilidad de medios: ¿con qué recursos contamos realmente para hacerla posible?.


En el esquema general del procedimiento de análisis de datos situamos la recopilación de datos como segunda fase del proceso. Además indicamos, así, como principios básicos, que estos datos deben cumplir tres criterios: que sean los datos pertinentes, que sean suficientes y también estén disponibles, esto es, que sean accesibles. 

La importancia de los dos primeros criterios es evidente. no es posible analizar una realidad, la que sea, si los datos que se emplean en el análisis no la reflejan o tienen poco que ver con el fenómeno que se desea estudiar. Esto es válido con independencia de la naturaleza cualitativa o cuantitativa de los datos.

Por el contrario, la suficiencia de los datos tiene que ver con lo cuantitativo, aunque es un criterio que debe entenderse en función de la naturaleza del análisis y con los objetivos que se plantean. En último caso, los datos disponibles son los que son, y aunque no satisfagan necesariamente teóricos criterios de suficiencia en términos estadísticos, es posible que sí lo hagan si el se reduce la pretensión de generalidad del alcance del análisis y se aceptan como válidas limitaciones de validez. Esta es una cuestión de interés en el contexto de la evaluación de la intervención, que no tiene por qué regirse por los mismos criterios de validez que los de los proyectos de investigación.

Tratando cuestiones que pueden ser irrelevantes en para los informáticos, pero que no lo son para los que no lo somos, quiero destacar la importancia de ese tercer criterio, el de la accesibilidad, que normalmente se da por supuesto. Esta omisión posiblemente sea aceptable en el mundo de los expertos, pero es craso error en el de los novatos, como es el caso, ya que dicho acceso no se puede dar por resuelto sin más.

Al respecto, y por eso de buscar soluciones plausibles, podemos considerar dos posibilidades o contextos: que los datos estén disponibles en una base de datos, sea esta del tipo que sea, por ejemplo, en una hoja de cálculo, o que estén dispersos en una masa de documentos digitalizada y más o menos organizada en directorios y subdirectorios.

La diferencia es radical para nosotros los novatos en términos de accesibilidad, hasta el punto que la primera se puede considerar que no presenta mayor dificultad puesto que hace tiempo que disponemos de soluciones técnicas, que es de lo que se trata ahora.

Ejemplos de ello tenemos en diferentes entradas recogidas en esta misma sección del blog, en concreto las que forman parte de los epígrafes sobre el uso de las hojas de cálculo mediante [OOo Basic] o con [Python].

Por ejemplo, con OOo Basic sabemos [acceder a una hoja de cálculo y dentro de él, a una hoja en concreto], [a una celda] o [a un conjunto de celdas] y [a su contenido]. Con ello estamos en disposición de acceder a los datos que previamente hayan sido almacenados en una hoja de cálculo a modo de tabla de datos. Lo que hagamos con estos datos, sea manualmente aplicando funciones built-in de Calc, sea mediante script ya forma parte de los pasos siguientes del proceso de análisis de datos.

De forma parecida podemos trabajar con Python usando como fuente de datos las hojas de cálculo de [Excel] o de [Calc]. Incluso cabe la posibilidad de usar ambas tecnología, por ejemplo, creando un script OOo Basic para desarrollar un DocAp de recogida de datos en una hoja Calc y después desarrollar otro script para acceder a los datos guardados mediante Python.

Todos estos casos tienen en común que se trabaja con una única hoja de cálculo, pero podemos encontrarnos en situaciones en las que, para acceder a los datos necesarios debemos acceder primero a un conjunto de hojas de cálculo, por ejemplo, ya que se ha utilizado este soporte a modo de ficha de recogida individual de información. 

En este caso deberemos recurrir a Python y a su módulo os como paso previo al acceso a los datos de cada una de las hojas de cálculo. En [esta entrada] se explica como desarrollar este procedimiento.

Pero qué sucede cuando no existe una tabla de datos de referencia, cuando lo que pretendemos es, precisamente, crearla a partir de información que está, de algún modo, contenida en los directorios y/o en los archivos que se ubican en ellos?.

No es una situación tan extraordinaria, y de hecho muchas veces hemos tenido que realizar este trabajo manualmente, abriendo directorio y subdirectorio, uno tras otro, cuando no documento tras documento buscando determinados datos para construir con ellos una tabla de datos (sobre Calc, por ejemplo) sobre la que después realizar determinados cálculos y análisis. Lo que ahora proponemos es desarrollar fórmulas que nos permitan automatizar, también, estos procedimientos de acceso a datos.

En la próxima entrada veremos cómo hacerlo.





  

No hay comentarios:

Publicar un comentario

Comenta esta entrada