domingo, 7 de septiembre de 2025

Textos. Python


Biblioteca PyPDF2




Muchas veces tenemos que trabajar con archivos .pdf. Si es para producirlos el único requisito es disponer de una utilidad de conversión, cosa que LibreOffice resuelve sin dificultad, incluyendo la transformación de un formulario Writer a formulario .pdf. Pero el problema se complica cuando tenemos que acceder al contenido de un documento .pdf.


En esos casos la solución puede ser tan sencilla como copiar y pegar, pero otras veces la solución se complica mucho, incluyendo el incurrir en costes económicos. Por desgracia, las soluciones sencillas suelen ser también costosas, pero en tiempo, lo que hace que en documentos complejos o extensos, en la práctica, no sean viables.

Con esta entrada inicio una subsección en la que explicaré cómo aplicar algunas soluciones mediante la biblioteca PyPDF2, biblioteca de Python pura (se instala directamente) que permite dividir, fusionar, recortar y transformar las páginas de archivos PDF. También es posible agregar datos personalizados, opciones de visualización y contraseñas a archivos PDF, así como extraer texto y metadatos de esos archivos.

De todas las operaciones que nos permite realizar esta biblioteca, muchas de ellas tienen escaso interés para nosotros, pero no está de más conocerlas. No obstante me centraré en explicar cómo usar PyPDF2 para aquello que mayor interés tiene en nuestro caso: extraer información del documento.

Para ello, ante de nada, es necesario instalar PyPDF2 mediante la instrucción pip install PyPDF2 desde la consola (símbolo del sistema). Además te recomiendo es que [visites su página web] (1) y visualices algún que otro vídeo actualizado de You Tube (2).

Te dejo que te entretengas lo que necesites con la información que te aporta la web y que practiques un poco con algunas de las opciones de esta biblioteca. En entradas posteriores realizaremos algunas prácticas.

NOTAS 

(1) También puedes visitar otras páginas que explican cómo realizar determinadas operaciones, pero es posible que no te funciones ese código debido a cambios de sintaxis entre versiones de PyPDF2. Es por ello mas recomendable aun que recurras a la web oficial de la biblioteca.
(2) Personalmente me ha parecido interesante [este vídeo]. Aunque supera los muy sencillos objetivos de esta entrada y hasta puede dar lugar a alaguna confusión, lo cierto es que plantea temas interesantes que podríamos plantearnos en el futuro.

No hay comentarios:

Publicar un comentario

Comenta esta entrada