Análisis de datos. Fase previa.
Aunque lo ideal sería que esto no fuera necesario, lo real es que es esta una fase fundamental en todo proceso de análisis de datos, incluso cuando somos nosotros mismos los que hemos realizado la tabla de datos. Incluso en ese caso es necesario realizar el pre-análisis y la limpieza de datos.
Aunque es un tema interesante, no me corresponde a mí desarrollar aquí una explicación de detallada de en qué consiste y cuáles son las fases del análisis de datos. Hay información sencilla y bien desarrollada en la web a disposición de quienes estén interesados en estos temas, así que os animo a bucear en la red (1)
Lo que sí me corresponde (creo) es concretar algunas cuestiones relacionadas con la forma de llevar a la práctica esas fases y ese proceso; más que nada por simplificar y definir cómo se concreta el abordaje de algunas cuestiones; esta del preanálisis y la limpieza de datos, sin ir más lejos.
He observado que algunos de los procedimientos de creación de una base de datos simple (sobre Calc) puede dar lugar a errores que son fáciles de detectar si uno se fía de las apariencias... y de lo que cree haber hecho correctamente, que sí, pero no. Me explico.
Al crear el listado de datos (columnas, generalmente) es posible que inadvertidamente (y por diferentes causas) los estemos escribiendo (o se escriban) en realidad como caracteres alfanuméricos. Para nosotros son números, pero para el ordenador son "letras" y claro, las letras se juntan, pero no se suman... Aparentemente todo está bien, pero no es verdad. Incluso aunque al aplicar formulas (Calc) no se observe error, lo cierto es que podemos estar calculando un estadístico sólo con una parte de los datos, cosa que evidentemente conlleva la comisión de errores muy graves.
Es por ello que animo a que antes de proceder a realizar ningún cálculo sobre los datos de esas tablas que aprendimos a crear sobre Calc, sea manualmente, y más aun si es mediante código, realicemos eso que aquí se llama pre-análisis y que, en este contexto concreto revisión de los datos.
En Calc (o sea, manualmente) podemos hacerlo aplicando a la columna de datos y a cada uno de sus datos, la función VALOR() (vg VALOR(B2)). Esta función convierte un texto en número (2), por lo que tenemos ahora asegurado que todos los valores de nuestra variable (columna) son valores numéricos.
Supongo que habrás advertido que lo que aquí tenemos es la función de conversión de texto (string) a número (integer) que conocemos en OOo Basic como CInt() y en Python como int(), por lo que no te será difícil desarrollar el script de conversión en cualquiera de ambos lenguajes; aunque es posible que prefieras limitarte al trabajo con Calc. Más sencillo y directo sí que es, pero si tenemos que hacerlo con muchas columnas (variables) y con muchos datos, a lo mejor te sale a cuenta crear el script correspondiente. De momento, queda de tu mano.
NOTAS
(1) Y que cada uno proceda como considere más adecuado. Aquí sólo aporto [una referencia en este enlace] meramente a modo de ejemplo. No estaría de más realizar alguna que otra lectura "analógica", que bibliografía especializada no falta. Un ejemplo: Pardo Merino, A. (2009) Análisis de datos: en Ciencias sociales y de la salud I. Ed. Síntesis. Se complementa con los volúmenes II (2010) y III (2012), así que hay lectura para rato... Y muy interesante.
(2) Evidentemente si lo que deseamos convertir es convertible. Una letra o una palabra no lo es.

No hay comentarios:
Publicar un comentario
Comenta esta entrada