SORU
28 ŞUBAT 2012, Salı


geliştirmek için görüntü işleme OCR doğruluğu tesseract

Tesseract metin belgeleri dönüştürmek için kullanıyorum. Belgelerin kalite çılgınca aralıkları ve sonuçları geliştirmek olabilir ipuçları arıyorum. Fark ettim ki metin çok pixellated - örneğin bu tarafından oluşturulur faks makinesi - özellikle zor için tesseract için süreci - muhtemelen tüm bu tırtıklı kenarları karakterleri karıştıracağını şekil tanıma algoritmaları.

Ne tür bir görüntü işleme teknikleri doğruluğunu geliştirmek istiyorsunuz? Bir Gaussian blur pixellated görüntüleri düzeltmek için kullanıyorum ve bazı küçük iyileşme gördüm, ama daha iyi sonuçlar verecek, daha özel bir tekniği olduğunu umuyorum. Düzensiz kenarlar, karakterleri daha belirgin hale getirmek için kontrast artıracak bir filtre tarafından takip düzeltmek hangi siyah ve beyaz görüntüler için ayarlanmış bir filtre söylüyorlar.

Görüntü işleme bir acemi birisi için herhangi bir tavsiye?

CEVAP
5 NİSAN 2012, PERŞEMBE


  1. (gerekirse) düzeltme DPİ 300 DPİ minimum
  2. metin boyutu (örneğin 12 pt Tamam olmalıdır) düzeltme
  3. metin satırları geliştirme * * * * ve dewarp metin) düzeltmek için çalışıyoruz
  4. görüntü aydınlatma (örneğin görüntü . hiçbir karanlık kısmını düzeltmek için deneyin
  5. ikili duruma getir ve de-gürültü görüntü

Tüm durumlar için (bazen görüntü bulanıklığı netleştirmek gerekir) uyabilecek evrensel komut satırı yok. Ama TEXTCLEANER from Fred's ImageMagick Scripts için iyi bir şans olabilir.

Eğer komut satırı hayranı iseniz, belki de açık kaynak kodlu scantailor.sourceforge.net kullanın veya bookrestorer ticari deneyebilirsiniz.

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • Curso Online Gratuito

    Curso Online

    4 Aralık 2011
  • Joseph Hayhoe

    Joseph Hayho

    20 Mayıs 2010