OrientAsLO

OOo Basic para LibreOffice y +. Programación e IA para los SEO

INICIO
LENGUAJES
NÚMEROS
OFIMÁTICA
DATOS Y TEXTOS
INTERFACES
MEDIOS AV
Expedientes
Informes
Tutoría
Evaluación
Orient-IA

Buscar en este blog

DATOS Y TEXTOS

ACCESO, TRATAMIENTO Y MANEJO

Objetivos de la sección
Fases del proceso

ACCESO A DATOS

Directorios y archivos

Directorios y archivos.
El directorio como dato || Seleccionar directorios || Estructura: subdirectorios ||
Recuento de archivos
Recuento de archivos || Recuento con Pathlib
Elección de archivos
Búsqueda por extensión || Selección por extensión || Unificar la extensión || Búsqueda en profundidad || Nombre y extensión || Otros procedimientos || Procedimientos IA

Archivos csv
Módulo CSV || Acceso a archivos .csv (I) || Acceso a archivos .csv (II) || Acceso a archivos .csv (III) ||
Pandas || Acceso a csv con Pandas ||

Archivos de texto
Texto plano
Creación y acceso a archivos || Escritura en archivos || Lectura de archivos
Procesadores de texto
Documentos .docx || Documentos .odt || Aceso a datos textuales concretos ||

Archivo Excel
Acceso al contenido de una hoja de cálculo || Carga masiva de datos desde múltiples hojas de cálculo ||

Archivos PDF
Biblioteca Camelot-py || Acceso a tablas pdf || PDF multitabla y multipágina || Pasar tablas a Excel ||
Biblioteca PyPDF2 || Para empezar || (I) Acceso al documento || (II) Archivo simple || (III) Archivo multi-página || (IV) Acceso a múltiples archivos || (V) Limitaciones de forma y contenido || (VI) Acceso a imágenes || (VII) Segmentar el contenido (páginas) || (VIII) Segmentar contenido (otros criterios) || (IX) Guardar texto || (X) PyPDF2 y más
Biblioteca PyMuPDF || (I) Presentación || (II) Acceso a documentos PDF || (III) Acceso a PDF. Párrafos || (IV) Acceso a PDF. Tablas || (V) PDF. Obtención y generación de imágenes

Procesamiento de imágenes para la obtención de texto (OCR)
Recursos para OCR || Obtención de texto con Pillow || Obtención de texto con OpenCV || Ejemplo de obtención masiva de texto desde imágenes ||

Procesamiento de audio para su conversión a texto
Biblioteca Whisper para uso-en-local

TRATAMIENTO DE DATOS

Manipulación, organización y limpieza de datos

¿Qué datos?
¿Limpieza de datos?

Datos semi-estructurados
Manipulación de los datos || Tratamiento ofimático. || Solución Macro-DocAp ||
Tablas en documentos (pdf, docx y odt) || Tablas PDF, imagen y OCR. || Tablas PDF, txt y csv. || Tablas Word (.docx) (I) || Tablas Word (.docx) (II) || Tablas complejas (.odt) (I) || Tablas complejas (.odt) (II) || Tablas complejas (.odt) (III) || Tablas complejas (.odt) (IV) || Tablas complejas (.odt) (V) || Tablas complejas (.odt) (VI) ||

Tratamiento de datos estructurados y semi-estructurados
Organización de datos semi-estructurados || Limpieza de datos. Registros vacios || Limpieza y normalización ||

Tramiento de datos no estructurados
Temática || Limpieza y normalización || Simplificación (stop words) || Simplificación (lematización) || Identificación de contenido (NER) I || Identificación de contenido (NER) II || Identificación de contenido (NER) III || Identificación de contenido (NER) IV || Identificación de contenido (NER) V ||

USOS DE LOS DATOS

Consula, selección, análisis...

Listados y consultas

Listas a partir de csv [En construcción] ||

Análisis de datos

Interés del análisis de datos || Análisis de datos. Lenguajes y utilidades ||
Fases del análisis de datos || Fases || Definición del problema ||

Automatización de textos

OOo Basic

Modelo básico || Básico I. Calc y OOo Basic || Básico II. Calc, Writer y OOo Basic

DocAp simple || Definición de DocAp || DocAp basado en macro || DocAp sobre nuevo documento || DocAp texto mutilado
DocAp complejo || Calc + Writer || Impress + Writer || Calc + Calc + Write

Modelo basado en textos || Texto-base y segmentos textuales || Matriz-base (I) || Matriz-base (II) || Variables gramaticalmente condicionadas || Variables input || Segunda fase: el DocAp || Propuesta de mejora: vn vs. vg || El género del nombre || Manejo de BDNombres (I) || Manejo de BDNombres (II) || Manejo de BDGenero (I) || Manejo de BDGenero(II) || Manejo de BDGenero (III) || Versión compleja del modelo (I) || Versión compleja del modelo (II) ||

Enviar por correo electrónico Escribe un blog Compartir en X Compartir con Facebook Compartir en Pinterest

No hay comentarios:

Publicar un comentario

Comenta esta entrada

Suscribirse a: Entradas (Atom)

Etiquetas

Python (192) OOo Basic (159) Datos (122) Automatización de procesos (114) Textos (103) Calc (76) Evaluación (76) Funciones (56) Lenguajes (50) Writer (46) Documentos (37) Estadística (36) Análisis de datos (33) Interfaz (32) MAV (29) docap (27) Estadística descriptiva (26) LibreOffice (25) Macro (22) Ámbitos de evaluación (22) Informe (20) Lenguaje (20) Procedimientos (17) Tablas (17) Directorios (16) Matrices (16) Presentación (16) Demanda (15) Limpieza de datos (15) Variables (15) Imágenes (14) TkInter (14) PyGame (13) Tratamiento de datos (13) Acreditación (12) Gráficos (12) Ofimática (12) python-docx (12) Análisis (11) Bucle (11) Impress (11) PyPDF2 (11) Ítem (11) Colecciones de datos (10) Marcador (10) Script (10) Formulario (9) Juego (9) Memoria (9) openpyxl (9) python-pptx (9) Dictamen (8) Modelos (8) Pillow (8) Lista (7) Programación (7) pdf (7) Bifurcación (6) Cadenas (6) Documentación (6) Fonología (6) IA (6) NumPy (6) Operadores (6) PyMuPDF (6) csv (6) Análisis bivariado (5) Cuadro de diálogo (5) Excel (5) Matemáticas (5) NER (5) os (5) Competencia digital docente (4) Comprensión auditiva (4) Discriminación auditiva (4) Expedientes SEO (4) Herramientas (4) POO (4) Pandas (4) Seguimiento (4) Tiempos (4) Tupla (4) Usos (4) pytesseract (4) Aplicación (3) Atención (3) Camelot (3) Competencia ofimática (3) Evento (3) Matriz (3) Medidas de dispersión (3) Medidas de posicion (3) Medidas de tendencia central (3) Moda (3) Modelos IA (3) Normalización (3) OpenCV (3) PLON-R (3) PTI (3) Planificación (3) SpaCy (3) Subrutina (3) Vocabulario (3) docx (3) Atributos (2) Audio (2) Combinar correspondencia (2) Conceptos Básicos (2) Draw (2) ITPA (2) Lógica de programación (2) Materiales (2) Media (2) Mediana (2) Modelo experto (2) OCR (2) Ollama (2) Pilow (2) Promedio (2) SLM (2) Servicios (2) Stadistics (2) odt (2) Actuaciones (1) Aprendizaje (1) Caras (1) Clase (1) Coeficiente de determinación (1) Coeficiente de variación (1) Comparación (1) Comprensión (1) Conjunto (1) Correlación (1) Covarianza (1) Cuantiles (1) Derivación (1) Desviación típica (1) Diccionario (1) Inteligencia (1) Iteración (1) Máximo (1) Métodos (1) Mínimo (1) Nueva escolarización (1) Objeto (1) Organización de datos (1) PROLEC-R (1) Pearson (1) Percepción (1) PyUNO (1) Razonamiento (1) Regresión lineal (1) Rutas (1) Soportes (1) Tramiento de datos (1) Varianza (1) datetime (1) game loop (1) nltk (1) regex (1)

Datos personales

Javier AP

Ver todo mi perfil

Translate

Con la tecnología de Blogger.

Denunciar abuso