Biblioteca PyPDF2 (IV)

Acceder a múltiples archivos

Tarea complementaria de la anterior (acceder a múltiples páginas) es la que me propongo ahora: acceder de forma automatizada a varios archivos .pdf. Se trata también de una práctica que realizaremos con cierta frecuencia, así que interesa aprender cómo.

Realmente es menos relevante para este objetivo que el archivos tenga una página o varias, pero sí es seguro que automatizar el acceso a varios documento nos va a ser de mucha ayuda, sea para acceder al texto o para la búsqueda selectiva de información concreta en múltiples documentos de igual estructura.

Para llevar a cabo esta tarea, además de PyPDF2 necesitamos utilizar también la biblioteca os, gracias a la cual podremos automatizar el acceso a todos los documentos ubicados en una ruta (directorio) determinada. Lo que resta es ya tarea que corresponde a PyPFD2, como veremos a continuación.

Para esta práctica he creado un directorio auxiliar llamado coleccion1/, que contiene cinco documentos .pdf simples (de una página) que son la repetición de uno con el que ya trabajamos en esta entrada (1). Este es el código del script.



import os
from PyPDF2 import PdfReader

#Accedo a directorio pdf/coleccion1
os.chdir('pdf/coleccion1')

#Creo variables para acceso al contenido de los documentos
texto = ''
separador = "\n\nSiguiente documento--------------\n\n"

#Listo los componentes del directorio
lista_archivos = os.listdir('.')

#... y los recorro accediendo al contenido además de contarlos para identificar su número
i = 0
for lista in lista_archivos:
	lector = PdfReader(lista)
	pagina = lector.pages[0]
	texto += pagina.extract_text() + separador
	print(lista)

#Imprimo en pantalla el número de registros...
print("Número total de archivos " + str(i))

# ... y su contenido
print("\nINICIO DEL DOCUMENTO PDF ------------------------\n")
print(texto)
print("\nFIN DEL TEXTO DEL DOCUMENTO PDF ----------------")

Gracias a la biblioteca os y siguiendo el procedimiento ya explicado en esta entrada puedo acceder a los archivos del directorio que me interesa (2) y mediante el bucle for lista in lista_archivos: los recorro accediendo a su contenido gracias a lector = PdfReader(lista) y al procedimiento de acceso a la página pagina = lector.pages[0]. El procedimiento finalizar asignando acumulativamente el contenido de cada página a la variable texto += pagina.extract_text() + separador, que después imprimimos por pantalla (print(texto)), aunque podríamos tratarla de otro modo.

Si en lugar de trabajar con documentos .pdf de una página trabajáramos con otros de múltiples páginas, pero sólo quisiéramos acceder al contenido de una de ellas, usaríamos el mismo script modificando la referencia al directorio (vg. os.chdir('pdf/coleccion2')) y el índice de la página en la instrucción (pagina = lector.pages[4]) (3).

Finalmente puede que nos interese acceder a todo el contenido de unos archivos multi-página. Para ello partiremos del script anterior, pero modificándolo de forma sustancial...



import os
from PyPDF2 import PdfReader

#Accedo a directorio pdf/coleccion2
os.chdir('pdf/coleccion2')

#Creo variables para acceso al contenido de los documentos
pag = 0
texto = ''
separador = "\n\nSiguiente documento--------------\n\n"

#Listo los componentes del directorio...
lista_archivos = os.listdir('.')

#... y los muestro en pantalla
i = 0
print("Listado de los archivos del directorio")
for lista in lista_archivos:
	print(lista)
	i = i +1
print("Número total de archivos " + str(i))

# Vuelvo a recorrer la lista de archivos, copio su contenido...
for lista in lista_archivos:
	lector = PdfReader(lista)
	pag = len(lector.pages)
	for pg in range(pag):
		pagina = lector.pages[pg]
		texto += pagina.extract_text()

# y lo muestro en pantalla
print("\nINICIO DEL DOCUMENTO PDF ------------------------\n")
print(texto)
print("\nFIN DEL TEXTO DEL DOCUMENTO PDF ----------------")

... primero, para hacerlo más claro separo el recorrido del directorio y la escritura del título de los documentos y su conteo a un bucle específico...



i = 0
print("Listado de los archivos del directorio")
for lista in lista_archivos:
	print(lista)
	i = i +1
print("Número total de archivos " + str(i))

... y segundo, recorro todas las páginas de cada uno de los archivos y las paso a la variable texto mediante un segundo bucle que recorre de nuevo los archivos y anida un segundo bucle que recorre las páginas de los documentos (4).



for lista in lista_archivos: 		# Primer bucle: recorre los archivos del directorio
	lector = PdfReader(lista)
	pag = len(lector.pages)
	for pg in range(pag):			# Segundo bucle: recorre todas las páginas de cada uno de los pdf.
		pagina = lector.pages[pg]
		texto += pagina.extract_text()

Notas:

¹ De este modo me ahorro subir los archivos, aunque tú tendrás que replicar la carpeta y su contenido. Recuerda crear dentro de coleccion1 de VueltaCavernas0.pdf a VueltaCavernas4.pdf.
²En este script mostrarlos en pantalla y contarlos es sólo un modo de conocer que el procedimiento funciona correctamente.
³ Para este ejemplo he creado un segundo directorio (coleccion2) que contiene repetido el archivo multi-página usado en esta entrada. Para crear el script que acceda a una de sus páginas (la 5, en el ejemplo indicado en cuerpo de la entrada) sólo tienes que realizar sobre el explicado los cambios que se proponen.
⁴ Para esta tercera opción puedes usar el mismo directorio que en la segunda versión del primer script (ver nota 3)

OrientAsLO

Buscar en este blog

martes, 9 de septiembre de 2025

DATOS. Archivos PDF

Biblioteca PyPDF2 (IV)

Acceder a múltiples archivos

No hay comentarios:

Publicar un comentario

Datos personales

Translate