geliştirmek için görüntü işleme OCR doğruluğu tesseract
Tesseract metin belgeleri dönüştürmek için kullanıyorum. Belgelerin kalite çılgınca aralıkları ve sonuçları geliştirmek olabilir ipuçları arıyorum. Fark ettim ki metin çok pixellated - örneğin bu tarafından oluşturulur faks makinesi - özellikle zor için tesseract için süreci - muhtemelen tüm bu tırtıklı kenarları karakterleri karıştıracağını şekil tanıma algoritmaları.
Ne tür bir görüntü işleme teknikleri doğruluğunu geliştirmek istiyorsunuz? Bir Gaussian blur pixellated görüntüleri düzeltmek için kullanıyorum ve bazı küçük iyileşme gördüm, ama daha iyi sonuçlar verecek, daha özel bir tekniği olduğunu umuyorum. Düzensiz kenarlar, karakterleri daha belirgin hale getirmek için kontrast artıracak bir filtre tarafından takip düzeltmek hangi siyah ve beyaz görüntüler için ayarlanmış bir filtre söylüyorlar.
Görüntü işleme bir acemi birisi için herhangi bir tavsiye?
CEVAP
- (gerekirse) düzeltme DPİ 300 DPİ minimum
- metin boyutu (örneğin 12 pt Tamam olmalıdır) düzeltme
- metin satırları geliştirme * * * * ve dewarp metin) düzeltmek için çalışıyoruz
- görüntü aydınlatma (örneğin görüntü . hiçbir karanlık kısmını düzeltmek için deneyin
- ikili duruma getir ve de-gürültü görüntü
Tüm durumlar için (bazen görüntü bulanıklığı netleştirmek gerekir) uyabilecek evrensel komut satırı yok. Ama TEXTCLEANER from Fred's ImageMagick Scripts için iyi bir şans olabilir.
Eğer komut satırı hayranı iseniz, belki de açık kaynak kodlu scantailor.sourceforge.net kullanın veya bookrestorer ticari deneyebilirsiniz.
Nasıl ya iPhone 5 ekran çözünürlüğü iç...
Nasıl benim app için Galeri içinden bi...
Nasıl bir Görüntü ölçek için İmageView...
Görüntü için arsa Matplotlib örneğin, ...
Görüntü için readme ekleyin.GitHub md...