DATOS Y TEXTOS

ACCESO, TRATAMIENTO Y MANEJO

Objetivos de la sección
Fases del proceso

ACCESO A DATOS

Directorios y archivos

Directorios y archivos.
El directorio como dato || Seleccionar directorios || Estructura: subdirectorios ||
Recuento de archivos
Recuento de archivos || Recuento con Pathlib
Elección de archivos
Búsqueda por extensión || Selección por extensión || Unificar la extensión || Búsqueda en profundidad || Nombre y extensión || Otros procedimientos || Procedimientos IA

Archivos csv
Módulo CSV || Acceso a archivos .csv (I) || Acceso a archivos .csv (II) || Acceso a archivos .csv (III) ||
Pandas || Acceso a csv con Pandas ||

Archivos de texto
Texto plano
Creación y acceso a archivos || Escritura en archivos || Lectura de archivos
Procesadores de texto
Documentos .docx || Documentos .odt || Aceso a datos textuales concretos ||

Archivo Excel
Acceso al contenido de una hoja de cálculo || Carga masiva de datos desde múltiples hojas de cálculo ||

Archivos PDF
Biblioteca Camelot-py || Acceso a tablas pdf || PDF multitabla y multipágina || Pasar tablas a Excel ||
Biblioteca PyPDF2 || Para empezar || (I) Acceso al documento || (II) Archivo simple || (III) Archivo multi-página || (IV) Acceso a múltiples archivos || (V) Limitaciones de forma y contenido || (VI) Acceso a imágenes || (VII) Segmentar el contenido (páginas) || (VIII) Segmentar contenido (otros criterios) || (IX) Guardar texto || (X) PyPDF2 y más
Biblioteca PyMuPDF || (I) Presentación || (II) Acceso a documentos PDF || (III) Acceso a PDF. Párrafos || (IV) Acceso a PDF. Tablas || (V) PDF. Obtención y generación de imágenes

Procesamiento de imágenes para la obtención de texto (OCR)
Recursos para OCR || Obtención de texto con Pillow || Obtención de texto con OpenCV || Ejemplo de obtención masiva de texto desde imágenes ||

Procesamiento de audio para su conversión a texto
Biblioteca Whisper para uso-en-local

TRATAMIENTO DE DATOS

Manipulación, organización y limpieza de datos

¿Qué datos?
¿Limpieza de datos?


Datos semi-estructurados
Manipulación de los datos || Tratamiento ofimático. || Solución Macro-DocAp ||
Tablas en documentos (pdf, docx y odt) || Tablas PDF, imagen y OCR. || Tablas PDF, txt y csv. || Tablas Word (.docx) (I) || Tablas Word (.docx) (II) || Tablas complejas (.odt) (I) || Tablas complejas (.odt) (II) || Tablas complejas (.odt) (III) || Tablas complejas (.odt) (IV) || Tablas complejas (.odt) (V) || Tablas complejas (.odt) (VI) ||

Tratamiento de datos (estructurados y semi-estructurados)
Organización de datos semi-estructurados || Limpieza de datos. Registros vacios || Limpieza y normalización de dato ||

USO DE DATOS

Consula, selección, análisis y uso de datos

Listados y consultas


Listas a partir de csv [En construcción] ||

Análisis de datos


Interés del análisis de datos || Análisis de datos. Lenguajes y utilidades ||
Fases del análisis de datos || Fases || Definición del problema ||

Automatización de textos

OOo Basic
DocAp simple
Definición de DocAp || DocAp basado en macro || DocAp sobre nuevo documento || DocAp basado en un texto mutilado ||
DocAp complejo
DocAp combinado: Calc + Writer || DocAp combinado: Impress + Writer || DocAp combinado: Calc + Calc + Write || Modelo básico I (Calc y OOo Basic) || Modelo básico II (Calc, Writer y OOo Basic) ||
DocAp basados en un modelo textual
Texto-base y segmentos textuales || Matriz-base (I) || Matriz-base (II) || Variables gramaticalmente condicionadas || Variables input || Segunda fase: el DocAp || Propuesta de mejora: vn vs. vg || El género del nombre || Manejo de BDNombres (I) || Manejo de BDNombres (II) || Manejo de BDGenero (I) || Manejo de BDGenero(II) || Manejo de BDGenero (III) || Versión compleja del modelo (I) || Versión compleja del modelo (II) ||

No hay comentarios:

Publicar un comentario

Comenta esta entrada