Biblioteca PyPDF2 (I)
Acceso al documento
Aunque no nos vamos a limitar al acceso al contenido del documento .pdf, sí vamos a priorizar esta temática, aunque para hacerlo primero deberemos establecer nuestro objetivo, ya que no es lo mismo acceder para leer (y extraer datos) que hacerlo para escribir en el documento (1).
De momento nos planteamos acceder para leer, por lo que necesitamos importar el submódulo PdfReader como primera instrucción del script from PyPDF2 import PdfReader. El segundo paso consiste en asignar a una variable la ruta del archivo lector = PdfReader("pdf/VueltaCavernas.pdf"). El tercero consiste en acceder a las páginas, así que, dado que todo documento está compuesto por páginas, aunque el presente es muy simple y sólo consta de una única página, necesitamos acceder a la página para completar el acceso al documento. pagina = lector.pages[0].
Aunque hasta este momento si ejecutamos el script no vamos a obtener ninguna respuesta, lo cierto es que ya estamos "dentro" del .pdf, lo cual ya es mucho más de lo que podemos conseguir empleando otros medios (3).
Y de momento nos quedamos aquí porque el acceso real al contenido del documento va a depender del tipo de .pdf al que accedamos, como veremos en entradas posteriores.
Notas:
1Y a entraremos en más detalles, pero por el momento nos conformamos con aceptar esta información y el objetivo que se propone en la entrada.
2En caso de que el .pdf se encuentre en el mismo directorio que el script nos ahorramos el directorio.
3Para comprobar que estamos dentro, al final de este código podemos escribir una instrucción print("Hemos accedido al pdf") que nos permita confirmar que efectivamente hemos llegado a este punto.
No hay comentarios:
Publicar un comentario
Comenta esta entrada