domingo, 7 de septiembre de 2025

Textos. Python.


Biblioteca PyPDF2. 





Acceso al archivo

Aunque no nos vamos a limitar al acceso al contenido del documento pdf, sí vamos a priorizar esta temática por ser lo que considero tiene mayor interés para nosotros. Eso no quiere decir que nos limitemos a tratar esta cuestión, pero sí que será a la que dediquemos más tiempo; tanto por lo que ofrece como por las limitaciones que en ello presenta PyPDF2.


Pero seamos positivos y estudiemos las utilidades de la biblioteca, que tiempo habrá para conocer sus limitaciones, así que empecemos por aprender a acceder al documento.

Para acceder a un documento pdf usando PyPDF2 deberemos determinar primeramente nuestro objetivo, ya que no es lo mismo acceder para leer (y extraer texto o datos) que hacerlo para escribir en el documento (1). Así que nos planteamos como objetivo acceder para leer, por lo que necesitamos importar el submódulo PdfReader como primera instrucción del script

from PyPDF2 import PdfReader

El segundo paso consiste en asignar a una variable (lector) el acceso al directorio en el que se encuentra y al documento al que deseamos acceder (2

lector = PdfReader("pdf/VueltaCavernas.pdf")

Dado que todo documento está compuesto por páginas, aunque el presente es muy simple y sólo consta de una página, también necesitamos acceder a la página para completar el acceso al documento. Asignamos este proceso a una variable (pagina

pagina = lector.pages[0]

Aunque hasta este momento si ejecutamos el script no vamos a obtener ninguna respuesta (y esperemos que tampoco ningún mensaje de error), lo cierto es que ya estamos "dentro" del pdf, lo cual ya es mucho más de lo que podemos conseguir empleando otros medios (3).

Y de momento nos quedamos aquí porque el acceso real al contenido del documento va a depender del tipo de pdf al que accedamos, como veremos en entradas posteriores.

NOTAS

(1) Y a entraremos en más detalles, pero por el momento nos conformamos con aceptar esta información y el objetivo que se propone en la entrada.
(2) En caso de que el pdf se encuentre en el mismo directorio que el script nos ahorramos el directorio.
(3) Para comprobar que estamos dentro, al final de este código podemos escribir una instrucción (print("Hemos accedido al pdf")) que nos permita confirmar que efectivamente hemos llegado a este punto.


No hay comentarios:

Publicar un comentario

Comenta esta entrada