ACCESO, TRATAMIENTO Y MANEJO
Objetivos de la secciónFases del proceso
ACCESO A DATOS
Directorios y archivos
Directorios y archivos.
El directorio como dato ||
Seleccionar directorios ||
Estructura: subdirectorios ||
Recuento de archivos
Recuento de archivos ||
Recuento con Pathlib
Elección de archivos
Búsqueda por extensión ||
Selección por extensión ||
Unificar la extensión ||
Búsqueda en profundidad ||
Nombre y extensión ||
Otros procedimientos ||
Procedimientos IA
Archivos csv
Módulo CSV || Acceso a archivos .csv (I) ||
Acceso a archivos .csv (II) ||
Acceso a archivos .csv (III) ||
Pandas || Acceso a csv con Pandas ||
Archivos de texto
Texto plano
Creación y acceso a archivos ||
Escritura en archivos ||
Lectura de archivos
Procesadores de texto
Documentos .docx ||
Documentos .odt ||
Aceso a datos textuales concretos ||
Archivo Excel
Acceso al contenido de una hoja de cálculo ||
Carga masiva de datos desde múltiples hojas de cálculo ||
Archivos PDF
Biblioteca Camelot-py ||
Acceso a tablas pdf ||
PDF multitabla y multipágina ||
Pasar tablas a Excel ||
Biblioteca PyPDF2 ||
Para empezar ||
(I) Acceso al documento ||
(II) Archivo simple ||
(III) Archivo multi-página ||
(IV) Acceso a múltiples archivos ||
(V) Limitaciones de forma y contenido ||
(VI) Acceso a imágenes ||
(VII) Segmentar el contenido (páginas) ||
(VIII) Segmentar contenido (otros criterios) ||
(IX) Guardar texto ||
(X) PyPDF2 y más
Biblioteca PyMuPDF ||
(I) Presentación ||
(II) Acceso a documentos PDF ||
(III) Acceso a PDF. Párrafos ||
(IV) Acceso a PDF. Tablas ||
(V) PDF. Obtención y generación de imágenes
Procesamiento de imágenes para la obtención de texto (OCR)
Recursos para OCR ||
Obtención de texto con Pillow ||
Obtención de texto con OpenCV ||
Ejemplo de obtención masiva de texto desde imágenes ||
Procesamiento de audio para su conversión a texto
Biblioteca Whisper para uso-en-local
TRATAMIENTO DE DATOS
Manipulación, organización y limpieza de datos
¿Qué datos?
¿Limpieza de datos?
Datos semi-estructurados
Manipulación de los datos || Tratamiento ofimático. || Solución Macro-DocAp ||
Tablas en documentos (pdf, docx y odt) || Tablas PDF, imagen y OCR. || Tablas PDF, txt y csv. || Tablas Word (.docx) (I) || Tablas Word (.docx) (II) || Tablas complejas (.odt) (I) || Tablas complejas (.odt) (II) || Tablas complejas (.odt) (III) || Tablas complejas (.odt) (IV) || Tablas complejas (.odt) (V) || Tablas complejas (.odt) (VI) ||
Tratamiento de datos (estructurados y semi-estructurados)
Organización de datos semi-estructurados ||
Limpieza de datos. Registros vacios ||
Limpieza y normalización de dato ||
USO DE DATOS
Consula, selección, análisis y uso de datos
Listados y consultas
Listas a partir de csv [En construcción] ||
Análisis de datos
Interés del análisis de datos || Análisis de datos. Lenguajes y utilidades ||
Fases del análisis de datos || Fases || Definición del problema ||
Automatización de textos
OOo Basic
DocAp simple
Definición de DocAp ||
DocAp basado en macro ||
DocAp sobre nuevo documento ||
DocAp basado en un texto mutilado ||
DocAp complejo
DocAp combinado: Calc + Writer ||
DocAp combinado: Impress + Writer ||
DocAp combinado: Calc + Calc + Write ||
Modelo básico I (Calc y OOo Basic) ||
Modelo básico II (Calc, Writer y OOo Basic) ||
DocAp basados en un modelo textual
Texto-base y segmentos textuales ||
Matriz-base (I) ||
Matriz-base (II) ||
Variables gramaticalmente condicionadas ||
Variables input ||
Segunda fase: el DocAp ||
Propuesta de mejora: vn vs. vg ||
El género del nombre ||
Manejo de BDNombres (I) ||
Manejo de BDNombres (II) ||
Manejo de BDGenero (I) ||
Manejo de BDGenero(II) ||
Manejo de BDGenero (III) ||
Versión compleja del modelo (I) ||
Versión compleja del modelo (II) ||
No hay comentarios:
Publicar un comentario
Comenta esta entrada