PDF/A-Dokumente in ein Archivsystem überführen

In diesem konkreten Fall hatte ein Kunde die Anforderung PDF/A-Dokumente, die mit webPDF erzeugt wurden, anschließend automatisiert in ein Archivsystem zu überführen und den Dokumenten dabei eine Reihe von Metadaten mitzugeben.

Die Dateien lagen zunächst in vielen unterschiedlichen Formaten vor und sollten dann in PDF/A umgewandelt werden sowie Metadaten hinzugefügt werden.

Ziel und Inhalt des Projekts

Die Anforderung des Kunden und Ziel des Projekts war die Entwicklung einer grafischen Anwendung, die nach Auswahl eines Datei- oder IMAP-Ordners die darin enthaltenen Dokumente nach PDF/A (PDF/A 3b) konvertiert. Dabei sollten die Unterordner des gewählten Basisordners in die Konvertierung einbezogen werden und die Ordnerstruktur bei der Ausgabe erhalten bleiben. Die erstellten PDF/A-Dokumente sollen zusätzlich mit Metadaten ergänzt werden, so dass ein nachgelagertes Archivsystem die Dokumente über die Metadaten zielgerichtet archivieren kann.

Dazu ist eine eigene Java-Anwendung (OpenJDK basiert) mit einem grafischen User Interface (GUI) entwickelt worden. Das Programm soll als „stand-alone“ Anwendung ohne Installation unter Windows (ab Version 10) oder Linux ausgeführt werden können und alle notwendigen Ressourcen (z.B. Java) mitbringen. Voraussetzung für das Projekt war die Installation von webPDF, damit so die benötigten Webservices für die Konvertierung verfügbar sind.

Details zur Konvertierung

Bei der Konvertierung kann der Benutzer für den Basisordner zwischen einem lokalen Datei- („File-To-PDF“) und einem IMAP-Ordner („IMAP-To-PDF“) wählen. Der Zugriff auf das IMAP-Postfach wird über die Administration festgelegt. Bei der Konvertierung soll die Ordnerstruktur des Basisordner (auch bei IMAP) beibehalten werden. Auch die enthaltenden Namen der Dateien/Dokumente sollen beibehalten werden. Doppelte Dateinamen erhalten eine fortlaufende Nummerierung.
Getroffenen Einstellungen werden in einer Konfigurationsdatei für das Programm gespeichert und beim erneuten Start der Anwendung geladen und verwendet.

Alle Dateien, die sich im gewählten IMAP-/Datei-Ordner und den Unterordnern befinden werden nach PDF/A-3b konvertiert. Zusätzlich können per Konfiguration bestimmte Datenformate von der Konvertierung ausgeschlossen werden. Wenn Dateien nicht konvertiert werden sollen oder können, wird dafür jeweils ein PDF mit einem Verweis auf die Originaldatei erstellt.

Des Weiteren wurde festgelegt wie mit Dateianhängen von E-Mails oder mit Passwortgeschützte Dateien sowie Bildformaten verfahren werden sollte. Bei letzterem gibt es beispielswiese die Möglichkeit, dass für jedes Bildformat eine OCR Schrifterkennung durchgeführt wird (als Option im Dialog).

Individuelle Funktionen

Zusätzlich wurden Details bezüglich Administration, Protokollierung und Metadaten abgestimmt, so dass klar geregelt war, welche Einstellungen konkret für die Administration vorgesehen waren. Für die Protokollierung wurde mit eingeplant, dass alle (Fehler-) Meldungen des Programms in der GUI angezeigt und zusätzlich (mit erweiterten Informationen) in ein Log-Datei der Anwendung geschrieben werden sollten. Somit soll gewährleistet sein, dass diese für Support-Zwecke verwendbar sind. Bei der Konvertierung sollten zusätzlich Metadaten in dem XMP-Block des PDF/A-Dokuments geschrieben werden. Diese Daten sollten teilweise über die GUI eingegeben werden und teilweise aus dem Dokument selbst bestimmt werden.

Bei weiteren Fragen zu Archivierungsprojekten kontaktieren Sie uns gerne. Wir haben die Möglichkeit auch auf individuelle Fälle einzugehen und erarbeiten dafür gerne Lösungen: https://www.webpdf.de/support.

Mehr lesen zu anderen Archivierungsprojekten: