Die Branche am Montag!

Workflow

callas-Technologie für Deutsche Nationalbibliothek

Montag 14. Februar 2011 - Im Rahmen eines Projektes für die Deutsche Nationalbibliothek hat sich der Softwareanbieter iSquare aus Berlin zur Nutzung der pdfToolbox von callas software entschieden.

Anzeige:

Seit Juni 2010 stellt das Unternehmen täglich die sogenannten e-Paper Ausgaben von 300 deutschen Tageszeitungen in PDF/A bereit, die die Nationalbibliothek zur langfristigen Archivierung und Sicherung für die Nachwelt benötigt. Für die korrekte Erzeugung der Archivdateien sorgt unter anderem die pdfToolbox. Sie konvertiert im Rahmen eines Batch-Prozesses die von iSquare per Spiderprogramm über Nacht gesammelten Ausgaben in qualitativ hochwertige PDF/A-Dateien.

Zum Auftrag der Deutschen Nationalbibliothek gehört es unter anderem sicherzustellen, dass die Inhalte der deutschen Tageszeitungen langfristig archiviert werden. Daher wurde Ende 2009 in einem Ausschreibungsverfahren ein Dienstleister für die „Sammlung, Konvertierung und Bereitstellung elektronischer Ausgaben von Tageszeitungen“ gesucht. Den Zuschlag erhielt der Softwareanbieter iSquare. Da die Ausschreibung die Konvertierung aller elektronischen Zeitungen in das Langzeitarchivformat PDF/A vorschrieb, integrierte iSquare nach umfangreicher Marktsondierung unter anderem die pdfToolbox von callas in die Gesamtlösung. „Die Technologie von callas software hat uns insbesondere durch die hohe Qualität der Ergebnisse überzeugt“, erklärt Michael Kapst, Geschäftsführer von iSquare. „Damit ergänzt die pdfToolbox optimal unsere Lösung für die Deutsche Nationalbibliothek.“

Um die elektronischen Ausgaben der Deutschen Nationalbibliothek kontinuierlich zur Verfügung zu stellen, sind umfassende Arbeiten notwendig. Zunächst holt der iSquare ePaper Manager zwischen 8.00 und 10.00 Uhr die elektronischen Ausgaben über ein eigenes Spiderprogramm auf den Internetseiten der Tageszeitungen ab. „Die Verlage bieten die ePaper auf verschiedenen Wegen zum Download an“, erläutert Kapst. „Bei den Verlagen muss man oft die Seiten auswählen, die in die PDF-Dateien integriert werden sollen. Dazu kann man entweder direkt die jeweiligen Seiten oder aber Rubriken, wie Politik, Sport usw. markieren. Zusätzlich muss bei vielen Verlagen vorher die Wahl auf die Regionalausgabe getroffen werden.“

Die Zeitungsverlage sind verpflichtet, ihre elektronischen Zeitungen in einem konvertierbaren Format bereitzustellen. Ist dies nicht der Fall, wird dies protokolliert und gesondert reklamiert. Zu jeder erfassten Ausgabe wird außerdem automatisiert ein XML-Metadatensatz erstellt. Schließlich werden die Ausgaben insbesondere auf Vollständigkeit und Konsistenz geprüft und dann in einer Datenbasis abgelegt, auf die via Weboberfläche zugegriffen werden kann. Hier stehen sie zur weiteren Bearbeitung und eventuellen Fehlerbearbeitung zur Verfügung. Anschließend findet die Konvertierung nach PDF/A statt. Hierfür hat iSquare die pdfToolbox in ihre Lösung integriert, die für die vollumfängliche Einhaltung sämtlicher Spezifikationen von PDF/A sorgt und Fehler automatisiert korrigiert. Die pdfToolbox analysiert die PDF-Dokumente und greift bei Bedarf auch in eingebettete Objekte wie zum Beispiel Schriften, Metadaten oder Bilder oder Kompressionsalgorithmen ein. So werden alle versteckten Probleme erkannt und bei der Konvertierung behoben.

Die im Schnitt täglich 8.400 Seiten stehen in der Regel bis mittags der Deutschen Nationalbibliothek samt der Metadaten über eine OAI (Open Archives Initiative)-konforme Schnittstelle zur Abholung bereit. „Für das Institut spielt der Zeitfaktor allerdings keine große Rolle, wichtiger sind Vollständigkeit und Korrektheit der Dateien. Und dazu trägt auch unsere pdfToolbox maßgeblich bei“, erklärt Olaf Drümmer, Geschäftsführer von callas software abschließ

www.callassoftware.com/de
Zurück zur Übersicht
Die aktuelle Ausgabe!
Die Branche am Montag!