FAQ: Daten extrahieren
Wenn Sie Datenfelder markieren und extrahieren, erstellt EscapeE eine Datei (mit dem Erweiterungsteil *.EE), die die Felder-Definitionen enthält. Sie können also für neue Dokumente die gleiche .EE-Datei verwenden und nach Bedarf bearbeiten. |
Das können Sie tun – die Definitionens-Datei gilt dann für alle Dateien in diesem Ordner, ausgenommen, dass eine .EE-Datei mit dem entsprechenden Stamm auch dort liegt. Zum Beispiel, wenn die folgende Dateien in einem Ordner sind: |
1. Definieren Sie ein Feld, das die ganze Seite einschliesst. Das können Sie einfach erledigen, indem Sie die ganze Seite mit der Maus markieren, und mit der rechten Taste klicken. Selektieren Sie die 'Neues Feld..'-Option, und geben Sie nach Bedarf im nächsten Fenster einen neuen Name ein. Dabei wird standardmäßig eine neue Felderdefinitionsdatei namens xxxx.EE, wobei xxxx der Stamm des Names der aktuellen Datei ist. Sie können diese Datei nach Bedarf als DEFAULT.EE umbenennen, damit Sie die Felderdefinitionen für weitere Dokumente aus dem selben Verzeichnis nicht extra aufrufen müssen. |
Ihre Datei enthält keinen Text, sondern nur Grafiken. EscapeE ist (seit Version 8.50) von der OCR (Texterkennung) fähig, aber dafür müssen Sie entweder Anderenfalls wenn das Dokument von einem Windows® Treiber erzeugt wurde, können Sie möglicherweise Text davon gewinnen. Im 'Drucker-Einrichtung'-Dialogfenster, klicken Sie 'Eigenschaften' und dann 'Erweiterte Grafik-Optionen'. Sie sollen für 'Herunterladene TrueType® Fonts' entweder 'Outline Soft-Fonts' oder 'Bitmap-Soft-Fonts' bestimmen. Tipp: wenn Ihre Datei hauptsächlich aus Grafiken entsteht, ergibt das Klicken auf Text mit der rechten Maustaste keine "Textdetails" oder "Fonteigenschaften" Optionen sondern nur "Grafikdetails". |
Sie leiden unter den nicht-standardisierten Zeichen-Codes, die von manchen Treiber erzeugt werden. Die meiste solche Problemen werden von Windows® Treibern verursacht, denn maßgeschneiderte Software sowie UNIX® Systeme treiben Drucker ziemlich überschaubar, also Sie haben die Ausgabe wohl mittels eines Windows® Treiber erzeugt. Falls es nicht möglich wird, den Windows-Druckertreiber zu ändern, können Sie mithilfe von dem EEFonts-Programm einen Zeichenerkennungsdatenbank einrichten, der von der RedTitan® EscapeE PCL®-Viewer Anwendung benutzt werden kann, um den Text wieder nutzbar zu machen, entweder im Form des Windows Zeichensatzes oder als Unicode. |
Das Problem kommt vor, weil zwei Text-Abschnitte im Feld einander überschneiden, und werden deshalb von EscapeE verkettet. Als Lösung können Sie die Suche-Kriterien spezifischer bestimmen, oder das Feld genauer abgrenzen. Zum Beispiel, wenn zwei Text-Abschnitte verschiedene Fonts oder Größen haben, können Sie die entsprechende Eigenschaften im Suche-Tag-Optionen Dialogfenster bestimmen. Sie können auf überschneidenden Felder prüfen, indem Sie den Text mit der rechten Maustaste klicken, und Textdetails auswählen. Sie sehen eine Zeile für jeder Text-Anschnitt, der bei der geklickten Stelle gefunden wurde. |
Eine Zeile wird als Teil eines Feldes betrachtet, wenn irgendein Teil davon innerhalb des Feldes liegt, und die Zeichen aus solchen Zeilen werden eingeschlossen, wenn zumindest die Hälfte der Breite von dem Zeichen innerhalb des Feldes liegt. Wenn die Felder nicht mit den Daten gut ausgerichtet sind, können zusätzliche Zeilen eingeschlossen werden. Deshalb ist es äußerst wichtig, dass die Fonts zwischen der Definierung der Felder und der Extrahierung der Daten nicht geändert werden (z.b. die Ersetzung von einem fehlenden Font durch Courier). Sie können dieses Problem manchmal vermeiden, indem Sie die Felder bezüglich eines expliziten Tags definieren: zum Beispiel, die Beschreibungsfelder können den 'Beschreibung'-Text als Bezugnahme verwenden, damit die Offsets ab die Stelle gemessen werden, wo der Text gedruckt wird. |
Um ein Feld zu editieren, klicken Sie mit der rechten Maustaste darauf, und wählen Sie 'Feld editieren' aus. Um Felder ausschliesslich für Seiten einzurichten, die eine bestimmte Text-Suchmarke enthalten, sollen Sie die Felder bezüglich eines Tags definieren, indem Sie die benötigte Suchmarke mit der rechten Maustaste klicken, und 'Neuer Tag' auswählen. Der ausgewählte Text wird im Tag-Kästchen angezeigt, und kann nach Bedarf editiert werden. Klicken Sie dann 'OK', und definieren Sie das Feld (oder wählen Sie ein bestehendes Feld aus). Sie können dann im Feld-Eigenschaften-Dialogfenster mittels dem 'Referenzfeld'-Menü das entsprechende Tag auswählen. |
Ja, Sie können die .EE-Datei selbst editieren oder sogar ganz von vorne eingeben, denn die ist einfach eine XML Text-Datei. |
Sie können die Extrahierung von Felder an verschiedenen Arten von Seiten anpassen, indem Sie eine einmalige Text-Suchmarke auswählen, die ausschliesslich auf dieser Art von Seite vorkommt, und dann eine Reihe von Felder bezüglich jeder solchen Suchmarke definieren. Sie können auch Sätze von mehreren Seiten definieren, die alle n Seiten wiederholen (siehe Erweitete Einstellungen anpassen). Sie können die Startseite extra bestimmen, also ein Feld könnte zum Beispiel so definiert werden, damit es auf Seite 3 beginnt, und dann alle 2 Seiten wiederholt. Um die erste Seite zu überspringen, können Sie ein Feld definieren, das auf Seite 2 beginnt, und danach auf jeder Seite vorkommt. |