DATOS

ACCESO, LIMPIEZA Y ANÁLISIS

Objetivos de la sección
Fases del proceso

Acceso a datos

Directorios y archivos.
El directorio como dato || Seleccionar directorios (I) ||
Recuentos
Recuento de archivos || Recuento con Pathlib
Archivos
Búsqueda por extensión || Selección por extensión || Unificar la extensión || Búsqueda en profundidad || Nombre y extensión || Otros procedimientos || Procedimientos IA

Archivos csv
Módulo CSV || Acceso a archivos .csv (I) || Acceso a archivos .csv (II) || Acceso a archivos .csv (III) ||
Pandas || Acceso a csv con Pandas ||

Archivos de texto plano
Creación y acceso a archivos || Escritura en archivos || Lectura de archivos

Acceso a datos Excel
Acceso al contenido de una hoja de cálculo || Carga masiva de datos desde múltiples hojas de cálculo ||

Acceso a datos PDF. Biblioteca Camelot-py
Acceso a tablas PFD || PDF multitabla y multipágina || Pasar tablas a Excel ||

Biblioteca PyPDF2
Para empezar || Acceso al documento .pdf || Archivo simple || Archivo multi-página || Acceso a múltiples archivos || Limitaciones de forma y contenido || Acceso a imágenes || Segmentar el contenido (páginas) || Segmentar contenido (otros criterios) || Guardar texto || PyPDF2 y más: re (I) ||

Procesamiento de imágenes para la obtención de texto (OCR)
Recursos para OCR || Obtención de texto con Pillow || Obtención de texto con OpenCV || Ejemplo de obtención masiva de texto desde imágenes ||

Procesamiento de audio para su conversión a texto
Biblioteca Whisper para uso-en-local ||

Limpieza de datos

¿Qué es la limpieza de datos?

Análisis de datos

Interés del análisis de datos || Análisis de datos. Lenguajes y utilidades ||
Fases del análisis de datos || Fases || Definición del problema ||

No hay comentarios:

Publicar un comentario

Comenta esta entrada