SORU
20 NİSAN 2011, ÇARŞAMBA


Python - bir kütüphane olarak pdfminer kullanarak Yardım

Bir pdf pdfminer kullanarak metin veri almak için çalışıyorum. Bir bu verileri ayıklamak mümkün duyuyorum .txt başarıyla pdfminer komut satırı aracı pdf2txt.py dosya. Ben şu anda bunu yapmak ve sonra bir python komut temizlemek için kullanın .txt dosyası. Pdf komut dosyası ayıklama işlemi ve kendimi bir adım kaydetmek dahil etmek istiyorum.

I thought I was on to something when I found this link ama çözümleri herhangi bir başarı yoktu. Belki de işlevi burada listelenen pdfminer daha yeni bir sürüm kullanıyorum çünkü yeniden güncellendi.

I also tried the function shown here, but it also did not work.

Denedim başka bir yaklaşım, bir komut dosyası işletim sistemi içinde komut dosyası aramak oldu.sistem. Bu da başarısız oldu.

Sürüm 2.7.1 ve pdfminer sürüm 20110227 Python kullanıyorum.

Zaman ve yardımlarınız için şimdiden teşekkürler. Eğer daha fazla bilgi gerekiyorsa lütfen bana bildirin.

Python ve stackoverflow yeni duyuyorum.

CEVAP
30 Kasım 2011, ÇARŞAMBA


İşte ben benim için çalıştı sonunda üretilen temizlenmiş bir sürüm. Aşağıdaki sadece dosya adı verilen bir PDF dize, sadece verir. Bu birisi size zaman kazandırır umarım.

from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from cStringIO import StringIO

def convert_pdf(path):

    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

    fp = file(path, 'rb')
    process_pdf(rsrcmgr, device, fp)
    fp.close()
    device.close()

    str = retstr.getvalue()
    retstr.close()
    return str

Bu çözüm API changes in November 2013 tarihine kadar geçerlidir.

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • Commander Chalkboard

    Commander Ch

    20 Ocak 2014
  • Mary Jane Tauyan

    Mary Jane Ta

    20 AĞUSTOS 2009
  • Watcher3223

    Watcher3223

    15 Kasım 2007