14 posts tagged with "OCR"

View All Tags

Quality of text recognition in OCR webservice improved | webPDF

Minimum technical requirements

  • Java version: 11

  • webPDF version: 8 (revision 2159)

text recognition

Also existing functions, like the recognition of text (OCR) in PDF documents or graphics will be improved with the latest update of webPDF (Revision No. 2159). We now offer the possibility to prepare (optimize) your document before recognition in order to optimize the result.

How-to: Einsatz des OCR-Webservices von webPDF 7

Minimum technical requirements

  • Java version: 7

  • webPDF version: 7

  • wsclient version: 1

Bild Glühbirne: Anleitung - Tutorial

In diesem Beispiel wird die Nutzung des OCR-Webservices von webPDF vorgestellt. Die OCR-Funktionen in webPDF basieren auf tesseract. Standartmäßig werden die Sprachen Deutsch, Englisch, Französisch, Spanisch und Italienisch unterstützt. Sprachen lassen sich im tesseract-Ordner hinzufügen (Näheres dazu in der Anleitung von webPDF). Nicht unterstützt werden momentan Sprachen mit einem „Multibyte Character Set". Dies betrifft zum Beispiel Arabisch und fernöstliche Sprachen. Wie anzunehmen macht die Anwendung des OCR-Webservices vor allem bei Dokumenten Sinn, die Text enthalten, der allerdings nicht als Text eingebettet ist. Zum Extrahieren von normalem Text aus PDF-Dokumenten bietet webPDF eine einfache Möglichkeit im Toolbox-Webservice an.