RainerSeiner

Privates von Rainer B.

Online-OCR (Texterkennung)

2 Kommentare

Wer bekommt nicht öfters mal ein PDF, das sich bei näherem Hinsehen als reine Bildersammlung entpuppt; meistens sind es eingescannte Dokumente. Diese PDF-Dokumente lassen sich nicht nach Begriffen durchsuchen, man kann nichts heraus kopieren – sehr lästig.

Mögliche Abhilfen:

  1. Wer einen Scanner mit mitgelieferter OCR-Software besitzt kann das Dokument drucken, erneut einscannen. Sehr lästig und mit Qualitätsverlust verbunden
  2. Ein kostenloses Programm wie FreeOCR herunterladen. Entpuppt sich meistens als bedingt taugliches Mini-Programm, hauptsächlich wird einem Adware oder Schlimmeres auf dem Rechner installiert. Oder man wühlt sich durch die Angebote auf sourceforge.net.
  3. Man schaut sich mal bei Online-OCR um. Bei meinen Tests war
    das Ergebnis bei free-online-ocr.com leider unbrauchbar, aber
    onlineocr.net funktioniert wirklich fantastisch.

 

 

 

Der Text auf allen Testseiten (meistens FAX-Seiten) waren alle sofort brauchbar, die Fehlerquote viel geringer als bei meiner normalen Tipperei. Die Benutzung ist leicht. Es empfiehlt sich, einen kostenlosen Account anzulegen,  sonst können nur Einzelseiten umgewandelt werden. Mit der Anmeldung bekommt man ein Kontingent von 25 Freiseiten, weitere müssen bezahlt oder über ein Bonusprogramm „erarbeitet“ werden – mal sehen, wann ich herausfinde, wie man dieBonusseiten gutgeschrieben bekommt.

Der Rest ist auch mit wenig Englischkenntnissen leicht zu bewerkstelligen. Dokument hochladen (mögliche Formate sind TIF/TIFF (multipage TIFF), JPEG/JPG, BMP, PCX, PNG, GIF, PDF (multipage PDF), Ausgabeformat anklicken ( Adobe PDF, Microsoft Excel 97-2003 (xls), Microsoft Excel (xlsx), Microsoft Word 97-2003 (doc), Microsoft Word (docx), RTF document (rtf), Text Plain (txt)), Umwandlung starten und fertiges Dokument herunterladen.

PDF und .DOC war bei meinen Tests verwertbar (von anderen Programmen lesbar), DOCX ließ sich weder von meinem DOC-Viewer noch von LibreOffice noch von OpenOffice öffnen. Andere Ausgabeformate habe ich noch nicht getestet.

Die Textqualität ist wie schon gesagt ausgezeichnet, grafischeDarstellung leider nicht optimal, manches fehlt, Logos sind oft nicht mehr erkennbar.

Trotz der kleinen Mängel bei den Grafiken ist die Seite sehr empfehlenswert, da mit Abstand die beste Lösung, die ich bei allerlei Tests fand.

Wer ein Perfektes Ergebnis haben will:

  1. Sowohl Quell-PDF als auch OCR-PDF mit AOO oder LibreOffice öffnen
  2. Jeweils Deckgrafik (grafische Seitendarstellung) in Quelldokument markieren und kopieren (<control+c>)
  3. Jeweils Deckgrafik in entsprechender Seite des OCR-Dokuments einfügen (<control+v>), darauf achten das Grafik ganz im Vordergrund ist
  4. Bei Bedarf wieder als PDF exportieren.
Advertisements

Autor: rrbd

Freelancer, Engineer, Camper, Canoeist

2 Kommentare zu “Online-OCR (Texterkennung)

  1. Allerdings haben die sich nicht auf meine Frage, wie man denn nun Guthaben erwerben kann, gemeldet. Vielleicht doch nicht so empfehlenswert?

    Gefällt mir

  2. Aber vielleicht habe ich mich auch nur unbemerkt beim Captcha vertippt? Auf meine Rückfrage hin heute bekam ich nach Auskunft, von mir sei keine Anfrage eingegangen, innerhalb weniger Stunden 200 Bonuspunkte gutgeschrieben

    Gefällt mir

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s