Dieser Abschnitt erklärt, wie Sie OCR (Optical Character Recognition, zu Deutsch: Optische Schriftzeichen-Erkennung) nutzen können, um gescannte (Bitmap-) Dokumente in Dokumente zu wandeln, deren Text gesucht, selektiert und kopiert werden kann. OCR-Schrifterkennung can ebenfalls genutzt werden, um Text zu restaurieren, auch wenn die Buchstaben im PDF-Dokument nur als Vektorgrafiken vorliegen, oder wenn der textliche Inhalt, obwohl er klar lesbar auf der Seite steht, in irgendeiner anderen Form nicht mehr auffindbar oder verwürfelt ist. Tatsächlich kann PDF Nomad jedes PDF-Dokument per OCR-Schrifterkennung durchsuchen (sofern Sie das Recht haben, dieses Dokument zu drucken und zu kopieren), obwohl diese Funktion bei normalen PDF-Dokumenten, deren textlicher Inhalt noch intakt ist, natürlich von eher geringem Nutzen ist.
Die OCR-Schrifterkennung finden Sie im Werkzeuge-Menü. Wenn Sie den Menüeintrag wählen, öffnet sich ein Einstellungen-Dialog, in dem Sie die OCR-Funktionalität einstellen und entscheiden können, wie die Ergebnisse der OCR-Schrifterkennung genutzt werden sollen.
Oben links sehen Sie die Vorschaubilder-Liste. Hier können Sie rasch die Dokumentseiten durchstöbern. Klicken Sie auf ein Vorschaubild, um den Seiteninhalt im Vorschaubereich anzeigen zu lassen. Der Vorschaubereich zeigt Seiten so, wie sie auch die OCR-Schrifterkennung sehen wird. Abhängig von der Qualität und den Merkmalen der Originalseite kann es nötig sein, einige Einstellungen anzupassen, um optimale Ergebnisse zu erzielen.
Wenn Sie den Vorbereitung-Button anklicken, öffnet sich ein Dialog, in dem Sie die Helligkeit, den Kontrast und den Grenzwert für den Hintergrund einstellen können. Helligkeit ist z.B. dann nützlich, wenn der Text auf der Seite vergleichsweise blass ist. In diesem Fall kann es das Beste sein, die Helligkeit abzusenken, so dass Text dunkler und klarer wird. Wenn eine Seite einen hellen, aber ungleichmäßigen Hintergrund hat, kann es sehr helfen, mit dem Kontrast den Hintergrund weiter aufzuhellen, so dass die OCR-Schrifterkennung bessere Resultate bringen kann. Der Grenzwert Hintergrund ist ein Wert zwischen 1 und 255, mit dem festgelegt wird, bis zu welchem Grad von Helligkeit Pixel noch zum Hintergrund gerechnet werden. Wenn der Grenzwert für den Hintergrund abgesenkt wird, wird der Text oftmals fetter und voller, während das Anheben dieses Werts den Text oft dünner und leichter macht. Abhängig von der Originalseite können Sie mit diesem Parameter deutlich bessere Ergebnisse erzielen.
Bei manchen Dokumenten kann es nötig sein, mit allen drei Parametern zu spielen, um das beste Ergebnis zu erzielen. Grundsätzlich gilt: Wenn der Text im Vorschaubereich klar und kantenscharf aussieht, wird das Ergebnis voraussichtlich ebenfalls gut sein. Wenn das Original von schlechter Qualität ist, sollten Sie vielleicht erst einen Testlauf mit einer einzelnen Seite machen und anschließend die OCR-Schrifterkennung ggf. nochmal mit angepassten Einstellungen starten, bis Sie ein zufriedenstellendes Ergebnis erhalten.
PDF Nomad unterstützt bei der OCR-Schrifterkennung momentan knapp 70 Sprachen (einschließlich Fraktur-Varianten für Deutsch und Dänisch). Sie können hier eine oder mehrere Sprachen auswählen, die während der OCR-Schrifterkennung genutzt werden sollen. Je mehr Sprachen Sie selektieren, desto langsamer wird die OCR-Schrifterkennung, daher sollten Sie darauf achten, möglichst nur die Sprachen zu selektieren, die im aktuellen Dokument auch wirklich vorkommen.
Im Dialog OCR-Optionen entscheiden Sie, welche Teile des Dokuments erkannt werden sollen und was mit dem Ergebnis der OCR-Schrifterkennung geschehen soll.
Sie können:
• Seiten durchsuchbar machen: Der erkannte Text wird als Ebene hinter den Originalseiten eingefügt, so dass das Aussehen der Seite intakt bleibt; anschließend kann aber Text gesucht, selektiert und kopiert werden. Sie können eine von drei verschiedenen Einstellungen für die Auflösung der durchsuchbaren Seiten wählen. Die Auflösung-Option Niedrig erzeugt durchsuchbare Seiten mit einer nominalen Bildschirmauflösung (72 dpi). Die Auflösung Mittel erzeugt Seiten mit doppelter nominaler Bildschirmauflösung (144 dpi) und die Auflösung Hoch erzeugt Seiten mit vierfach nominaler Bildschirm-Auflösung (288 dpi). Je höher die Auflösung, desto größer die endgültige Dateigröße.
• Original durch erkannten Text ersetzen: Die Originalseiten werden ersetzt durch Seiten, die den soeben erkannten Text enthalten. Dadurch schrumpft die Dateigröße deutlich, aber das Aussehen des Texts ist nicht mehr wie vorher.
• Erkannten Text als RTF-Dokument exportieren: Die Seiten des Dokuments bleiben unberührt. Stattdessen können Sie am Ende des OCR-Schrifterkennungsprozesses den erkannten Text in ein RTF-Dokument sichern, das Sie anschließend in einen Texteditor importieren öffnen können.
Sie können PDF Nomad beauftragen, Alle Seiten des Dokuments zu durchsuchen, nur Ausgewählte Seiten (die momentan in der Seitenliste selektiert sind) oder nur die Aktuelle Seite (das ist die Seite, die momentan in der Dokumentansicht des Dokument-Hauptfensters zu sehen ist).
Zu erkennende Bereiche: Hier können Sie voreinstellen, dass die OCR-Schrifterkennung nur bestimmte Bereiche des Dokuments erfassen soll. Standardmäßig wird die ganze Seite einbezogen (Medienrahmen). Sie können einen oder mehrere der sekundären Darstellungsrahmen, um den Bereich für die OCR-Schrifterkennung einzugrenzen. Wenn Sie die gewünschten Rahmen vor dem OCR-Vorgang selbst erzeugen oder anpassen, können Sie die OCR-Schrifterkennung auf ganz bestimmte Bereiche der Seite beschränken.
Korrekturen vor der Fertigstellung erlauben: Wenn diese Option nicht abgehakt ist, läuft die OCR-Schrifterkennung ohne weitere Abfrage durch und stellt die Seiten fertig. Das kann dann von Nutzen sein, wenn die Originalseiten hohe Qualität haben und Sie sicher sind, dass die Ergebnisse wie gewünscht ausfallen werden. Wenn diese Option abgehakt ist, können Sie die OCR-Ergebnisse in einer Vorschau betrachten und eventuell noch Fehler beheben, bevor die Seiten fertiggestellt werden.
Klicken Sie den [OK]-Button, um die OCR-Schrifterkennung zu starten.
Wenn Sie Korrekturen vor der Fertigstellung erlauben, zeigt PDF Nomad den erkannten Text als rot markierte Ebene über dem Original, während ein Feld rechts daneben den erkannten Klartext darstellt. Sie können das Klartext-Feld nutzen, um rasch Fehler aufzuspüren, die dann in der Haupt-Vorschau korrigiert werden können.
Das Umfang-Pop-up-Menü bietet die Möglichkeit, Korrekturen entweder auf ganze Zeilen, einzelne Wörter oder einzelne Zeichen (Symbole) anzuwenden. Sie können Objekte per Maus verschieben, um sie woanders zu positionieren (oder selektierte Objekte mit den Pfeiltasten in eine Richtung stubsen), und sie können Wörter oder Symbole doppelklicken, um sie zu bearbeiten. Um selektierte Objekte zu löschen, drücken Sie die [Backspace]-Taste. Nach einem [Ctrl]-Klick (oder Rechtsklick) auf die Seite sehen Sie ein Kontextmenü mit Optionen, die Sie auf die selektierten Objekte anwenden können.
Wenn Sie mit dem Prüfen des Dokuments auf Fehler fertig sind und die notwendigen Korrekturen gemacht haben, klicken Sie den [Fertigstellen]-Button, um den OCR-Prozess abzuschließen.