Jump to content


Photo

Recoger datos de un PDF


  • Please log in to reply
8 replies to this topic

#1 Marc

Marc

    Advanced Member

  • Moderadores
  • PipPipPip
  • 1484 posts
  • LocationMallorca

Posted 30 May 2011 - 06:34 AM

Hola amigos.

Me gustaría que me aconsejaráis sobre la mejor forma de leer información de un PDF.

He adjuntado un PDF del que me gustaría que los usuarios de la aplicación puedan recojer automáticamente sus datos : Tratamientos, productos autorizados y observaciones de uso.

¿ Me podéis aconsejar algún componente o algún mecanismo para poder identificar y extraer esa información del PDF de muestra ?.

Gracias.

Attached Files


  • 0

#2 poliburro

poliburro

    Advanced Member

  • Administrador
  • 4945 posts
  • LocationMéxico

Posted 30 May 2011 - 09:21 AM

Saludos Marc.

Yo uso la utileria llamada Xpdf que es de distribución gratuita y puedes invocar desde la línea de comandos.

Con delphi invoco este programa para convertir las facturas PDF de nuestros proveedores a TXT y luego extraigo la información para cargar una base de datos de facturas por saldar incluyendo cada una de sus partidas.

A lo mejor es algo rudimentario pero te puede ayudar.

Saludos

Xpdf Tools http://www.foolabs.com/xpdf/about.html
  • 0

#3 escafandra

escafandra

    Advanced Member

  • Administrador
  • 4107 posts
  • LocationMadrid - España

Posted 30 May 2011 - 11:12 AM

Tambien puedes importar el activex de acrobat

Saludos.
  • 0

#4 Marc

Marc

    Advanced Member

  • Moderadores
  • PipPipPip
  • 1484 posts
  • LocationMallorca

Posted 30 May 2011 - 11:32 AM

Gracias por contestar.

Saludos Marc.

Yo uso la utileria llamada Xpdf que es de distribución gratuita y puedes invocar desde la línea de comandos.

Con delphi invoco este programa para convertir las facturas PDF de nuestros proveedores a TXT y luego extraigo la información para cargar una base de datos de facturas por saldar incluyendo cada una de sus partidas.

A lo mejor es algo rudimentario pero te puede ayudar.

Saludos

Xpdf Tools http://www.foolabs.com/xpdf/about.html


Precisamente lo probé el viernes (estuve buscando en sourceforge.net utilidades para convertir pdf's a formatos más accesibles como Excel) y vi que esta utilidad no me sirve  :( .

El texto resultante está totalmente desencajado. El archivo pdf es una tabla donde para cada tratamiento se ven los materiales autorizados y sus observaciones de uso. Pero cuando lo paso a texto con xpdf, todo queda movido y no se puede reconocer donde empiezan los materiales de cada tratamiento, sus observaciones, etc. ...

En realidad ahora pienso más en que debe haber algunos componentes para acceder nativamente al PDF desde Delphi y recorrerlo, de forma que pueda recoger esa información.

Pero nunca he oído hablar de ningún componente así, de ahí mi solicitud de ayuda.

Saludos y gracias de nuevo.



  • 0

#5 Marc

Marc

    Advanced Member

  • Moderadores
  • PipPipPip
  • 1484 posts
  • LocationMallorca

Posted 30 May 2011 - 11:59 AM

Tambien puedes importar el activex de acrobat

Saludos.


La verdad es que les tengo una manía tremenda a los controles ActiveX, huyo de ellos como de la peste  :D

Más que nada porqué necesitan instalación y me gusta que mis aplicaciones se puedan distribuir sin necesidad de instalar y preocuparse de si se ha instalado software de terceros.

Pero si un ActiveX es la solución, entonces no hay necesidad de buscar más.

Ya sabía que ese control me permite mostrar un PDF desde la aplicación Delphi, pero lo que necesito es leer sus datos. ¿ Sabes si con el ActiveX de Acrobat puedo recorrer mediante código Delphi el documento en su tabulación original ?.

Gracias.
  • 0

#6 escafandra

escafandra

    Advanced Member

  • Administrador
  • 4107 posts
  • LocationMadrid - España

Posted 30 May 2011 - 03:51 PM

Me parece que no se puede extraer texto, al menos por lo que he visto de sus funciones al instalarlo.

También es posible que te interese esto:
Reading the "clean" text from PDF with PHP
TEXTfromPDF ActiveX API


Saludos.
  • 0

#7 Rolphy Reyes

Rolphy Reyes

    Advanced Member

  • Moderadores
  • PipPipPip
  • 2092 posts
  • LocationRepública Dominicana

Posted 30 May 2011 - 07:47 PM

Saludos.

¿Que tal este?
  • 0

#8 Marc

Marc

    Advanced Member

  • Moderadores
  • PipPipPip
  • 1484 posts
  • LocationMallorca

Posted 31 May 2011 - 06:27 AM

Muchas gracias amigos, probaré estas sugerencias.
  • 0

#9 Sergio

Sergio

    Advanced Member

  • Moderadores
  • PipPipPip
  • 1092 posts
  • LocationMurcia, España

Posted 02 June 2011 - 08:07 AM

Hola Marc.

Aqui tamiben tenemos un caso de un cliente que recibe informacion en PDF para importar (hay que ser un poco cabroncete la verdad para enviar informacion en PDF, pero bueno).

El problema princpipal que te vas a encontrar en TODOS los sistemas que pruebes, es que el PDF te llegará casi seguro con "lineas de texto", no con parrafos completos, asi que vas a tener trozos de texto algo inconexos y tendras que unirlos de alguna manera (piensa que suelen ser generados en plan "impresora", así que cada linea de cada parrafo es independiente del resto del texto en el PDF).

Yo lo primero que probaria es a importar el PDF dentro de OpenOffice (hay un pluggin para esa importacion) y mira a ver que obtienes: Seguramente no tengas ni un solo párrafo de varias lineas, cada linea es su propio parrafo, y este es el origen de todos los problemas, claro.

El como lo hacemos tiene poco que explicar, una utilidad que convierte PDF en TXT (hay montones, y si el PDF tiene "tablas" hasta en CSV, no se exactamente cual usamos porque no lo hago yo personalmente ese proceso, pero si te interesa, te lo busco) y luego investigas a ver si hay cierta estructura en los textos (mirando el PDF) y te buscas una forma de unir trozos y esas cosas... eso si, cuando cambien su formato de "impresion" te hacen la puñeta, lo hagas como lo hagas... aqui cada x meses toca estudiarse un nuevo PDF a ver que cambio se han inventado.
  • 0




IP.Board spam blocked by CleanTalk.