ACCESO, TRATAMIENTO Y MANEJO
Objetivos de la secciónFases del proceso
ACCESO A DATOS
Directorios y archivos
Directorios y archivos.
El directorio como dato ||
Seleccionar directorios ||
Estructura: subdirectorios ||
Recuento de archivos
Recuento de archivos ||
Recuento con Pathlib
Elección de archivos
Búsqueda por extensión ||
Selección por extensión ||
Unificar la extensión ||
Búsqueda en profundidad ||
Nombre y extensión ||
Otros procedimientos ||
Procedimientos IA
Archivos csv
Módulo CSV || Acceso a archivos .csv (I) ||
Acceso a archivos .csv (II) ||
Acceso a archivos .csv (III) ||
Pandas || Acceso a csv con Pandas ||
Archivos de texto
Texto plano
Creación y acceso a archivos ||
Escritura en archivos ||
Lectura de archivos
Procesadores de texto
Documentos .docx ||
Documentos .odt ||
Aceso a datos textuales concretos ||
Archivo Excel
Acceso al contenido de una hoja de cálculo ||
Carga masiva de datos desde múltiples hojas de cálculo ||
Archivos PDF
Biblioteca Camelot-py ||
Acceso a tablas pdf ||
PDF multitabla y multipágina ||
Pasar tablas a Excel ||
Biblioteca PyPDF2 ||
Para empezar ||
(I) Acceso al documento ||
(II) Archivo simple ||
(III) Archivo multi-página ||
(IV) Acceso a múltiples archivos ||
(V) Limitaciones de forma y contenido ||
(VI) Acceso a imágenes ||
(VII) Segmentar el contenido (páginas) ||
(VIII) Segmentar contenido (otros criterios) ||
(IX) Guardar texto ||
(X) PyPDF2 y más
Biblioteca PyMuPDF ||
(I) Presentación ||
(II) Acceso a documentos PDF ||
(III) Acceso a PDF. Párrafos ||
(IV) Acceso a PDF. Tablas ||
(V) PDF. Obtención y generación de imágenes
Procesamiento de imágenes para la obtención de texto (OCR)
Recursos para OCR ||
Obtención de texto con Pillow ||
Obtención de texto con OpenCV ||
Ejemplo de obtención masiva de texto desde imágenes ||
Procesamiento de audio para su conversión a texto
Biblioteca Whisper para uso-en-local
TRATAMIENTO DE DATOS
Manipulación, organización y limpieza de datos
¿Qué datos?
¿Limpieza de datos?
Datos semi-estructurados
Manipulación de los datos || Tratamiento ofimático. || Solución Macro-DocAp ||
Tablas en documentos (pdf, docx y odt) || Tablas PDF, imagen y OCR. || Tablas PDF, txt y csv. || Tablas Word (.docx) (I) || Tablas Word (.docx) (II) || Tablas complejas (.odt) (I) || Tablas complejas (.odt) (II) || Tablas complejas (.odt) (III) || Tablas complejas (.odt) (IV) || Tablas complejas (.odt) (V) || Tablas complejas (.odt) (VI) ||
Tratamiento de datos estructurados y semi-estructurados
Organización de datos semi-estructurados ||
Limpieza de datos. Registros vacios ||
Limpieza y normalización ||
Temática || Limpieza y normalización || Simplificación (stop words) || Simplificación (lematización) || Identificación de contenido (NER) I || Identificación de contenido (NER) II || Identificación de contenido (NER) III || Identificación de contenido (NER) IV || Identificación de contenido (NER) V ||
USOS DE LOS DATOS
Consula, selección, análisis...
Listados y consultas
Listas a partir de csv [En construcción] ||
Análisis de datos
Interés del análisis de datos || Análisis de datos. Lenguajes y utilidades ||
Fases del análisis de datos || Fases || Definición del problema ||
Automatización de textos
OOo Basic
Modelo básico || Básico I. Calc y OOo Basic || Básico II. Calc, Writer y OOo Basic
- DocAp simple || Definición de DocAp || DocAp basado en macro || DocAp sobre nuevo documento || DocAp texto mutilado
- DocAp complejo || Calc + Writer || Impress + Writer || Calc + Calc + Write
Modelo basado en textos || Texto-base y segmentos textuales || Matriz-base (I) || Matriz-base (II) || Variables gramaticalmente condicionadas || Variables input || Segunda fase: el DocAp || Propuesta de mejora: vn vs. vg || El género del nombre || Manejo de BDNombres (I) || Manejo de BDNombres (II) || Manejo de BDGenero (I) || Manejo de BDGenero(II) || Manejo de BDGenero (III) || Versión compleja del modelo (I) || Versión compleja del modelo (II) ||
No hay comentarios:
Publicar un comentario
Comenta esta entrada