domingo, 7 de septiembre de 2025

DATOS. Archivos PDF

Biblioteca PyPDF2

Presentación

Muchas veces tenemos que trabajar con archivos .pdf. Si es para producirlos el único requisito es disponer de una utilidad de conversión, cosa que LibreOffice resuelve sin dificultad, incluyendo la transformación de un formulario Writer a formulario .pdf. Pero el problema se complica cuando tenemos que acceder al contenido de un documento .pdf. En estos casos la solución puede ser tan sencilla como copiar y pegar, pero otras veces esto no es posible y la cuestión se complica. Con frecuencia y por desgracia, las soluciones sencillas suelen ser también costosas en tiempo, lo que hace que en documentos complejos o extensos, en la práctica, no sean viables.

Con esta entrada inicio una subsección en la que explicaré cómo aplicar algunas soluciones mediante al acceso a los documentos .pdf mediante PyPDF2, biblioteca de Python que se instala directamente y que permite dividir, fusionar, recortar y transformar las páginas de ese tipo de archivos. También es posible agregar en ellos datos personalizados, opciones de visualización y contraseñas, así como extraer texto y los metadatos.

De todas las operaciones que nos permite realizar, muchas puede que tengan escaso interés para nosotros, aunque no está de más conocerlas. No obstante yo me centraré en explicar cómo usar PyPDF2 para aquello que mayor interés tiene en nuestro caso: extraer información del documento. Para ello debes instalarla pip install PyPDF2 desde Símbolo del sistema. Además te recomiendo es que visites su página web (1) y visualices algún que otro vídeo actualizado de You Tube (2).

Te dejo para que te entretengas con ello lo que necesites y para que practiques un poco con algunas de las opciones de esta biblioteca. En entradas posteriores realizaremos algunas prácticas.

Notas:

1También puedes visitar otras páginas que explican cómo realizar determinadas operaciones, pero es posible que no te funciones ese código debido a cambios de sintaxis entre versiones de PyPDF2. Es por ello mas recomendable aun que recurras a la web oficial de la biblioteca.

2Personalmente me ha parecido interesante este vídeo. Aunque supera los muy sencillos objetivos de esta entrada y hasta puede dar lugar a alguna confusión, lo cierto es que plantea temas interesantes que podríamos plantearnos en el futuro.

No hay comentarios:

Publicar un comentario

Comenta esta entrada