Textos en imágenes
Obtención de textos mediante OCR
El desafío actual consiste en extraer el texto que contiene una imagén, con independencia de la naturalez de esa imagen, aunque lo más común será un documento fotocopiado y convertido a formato digital, generalmente en formato .pdf. En este caso, aparentemente estamos en la misma situación que ya afrontamos al trabajar con tablas y párrafos de texto .pdf, pero en realidad nos encontramos en la misma situación que ya provocamos como "último recurso" para la extracción de datos de tablas-pdf: lo que tenemos delante no es un texto, es una imagen, por lo que deberemos aplicar técnicas OCR.
Esta situación es bastante frecuente en el manejo de documentos por parte del SEO y afortunadamente el tratamiento mediante OCR es hoy muchos más eficiente que en los principios de la generalización de los medios informáticos, siempre y cuando, claro está, la imagen sea de calidad y el texto legible.
Una de las soluciones Python incorpora un software OCR llamado Tesseract mediante una biblioteca específica de ese lenguaje llamada pytesseract, cuya web oficial tienes en este enlace.
Te recomiendo que te tomes las cosas con calma y que consultes ambas webs antes de proceder a la instalación del software; esto es especialmente necesario para el OCR, ya que su instalación requiere cierto cuidado y debe ser previa a la de la biblioteca de Python. Pero merece la pena el esfuerzo: los resultados son muy satisfactorio y a coste 0.
No hay comentarios:
Publicar un comentario
Comenta esta entrada