viernes, 27 de febrero de 2026

Datos

Fases del proceso

De forma resumida y para empezar, podemos decir que en el procesamiento de datos se pueden diferenciar tres fases: acceso, limpieza y análisis. Esta diferenciación, en lo que al orden de sucesión se refiere, es, con frecuencia, más formal que real, ya que no siempre sus fases se presentan en la secuencia expuesta. No obstante, la diferenciación es conceptualmente válida y necesaria.

La fase primera, la de acceso, es aquella en la que se recopilan los datos de la o las fuentes. Se trata de una fase muy sensible por la complejidad técnica que conlleva y por la necesaria atención a cuestiones de tipo ético-legal.

Puede ser que para los SEO, por lo que nos interesa y por el campo en que nos movemos, muchas de esas complejidades se simplifiquen bastante, pero también se expresan de forma radical. Por ejemplo, debemos garantizar absolutamente la confidencialidad de los datos, de modo que en ningún caso sean expuestos en la red, al menos (y sólo en determinadas circunstancias) sin antes haber sido sometidos a un riguroso de proceso de anonimación.

Salvadas estas cuestiones, como en cualquier otro campo de la investigación y de la intervención, deberemos resolver satisfactoriamente los problemas técnicos que derivan de las fuentes, empezando por los relativos al acceso.

Compartimos también con quienes trabajan con datos, el interés por que éstos sean fiables y valiosos; también porque sean suficientes, pero en esto nuestro interés no conlleva necesidades que sí afectan a otros campos. Para nosotros es más importante la calidad que la cantidad... dentro de ciertos límites de suficiencia, por supuesto.

La limpieza y depuración (data cleaning) busca mejorar la calidad de los datos, eliminando todo aquello que dificulta el posterior análisis (el "ruido") y corrigiendo errores. Esta fase consiste en...

  • Eliminar los datos duplicados y/o irrelevantes,
  • Dar a los valores faltantes (missing Data) el tratamiento que resulte más adecuado, bien sea por eliminación, bien por imputación (mediante qué procedimiento)
  • Corregir los errores estructurales: homogeneizar formatos, corregir errores tipográficos, estandarizar categorías y unificar unidades de medida.
  • Decidir el tratamiento de los valores atípicos (outliers) que pueden llegar a sesgar el análisis.
En resumen, la limpieza de datos garantiza la fiabilidad de los datos y, en consecuencia, de los resultados del análisis (fase siguiente del proceso), reduce el sesgo y asegura la compatibilidad entre datos.

La tercera fase, el análisis de datos (data analysis), es el proceso de inspeccionar, modelar y transformar los datos para generar información útil que sirva para la comprensión de los fenómenos y/o la toma de decisiones.

Los tipos de análisis básicos son los siguientes:

  • El análisis descriptivo, que, como su nombre indica, describe los datos y, en su caso, los resume mediante diversos estadísticos (descriptivos).
  • El análisis exploratorio (EDA), usado para entender la estructura de los datos, encontrar patrones y detectar anomalías.
  • El análisis de diagnóstico, que consiste en investiga por qué ha pasado algo, buscando relaciones causa-efecto.
  • El análisis predictivo, que utiliza datos históricos para predecir que podría suceder en el futuro.
  • Y el análisis prescriptivo, que partiendo de las predicciones, sugiere acciones para aprovecharlas o para reducir su probabilidad.