70 Terabyte Zeitgeschichte

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

NZZ – Projekt 1780

Die Neue Zürcher Zeitung (NZZ) hat als einer der führenden und ältesten Zeitungsverlage in Europa das Ziel, ihr 225 Jahre umfassendes Zeitungsarchiv digital verfügbar zu machen.
Der Zugriff auf historische Ereignisse und das Lernen aus der Geschichte sind von zentraler Bedeutung für den traditionsbewussten Zeitungsverlag.

Ziel

Mit dem digitalen Zeitungsarchiv, das in diesem Projekt realisiert wird, ist es für verschiedene Benutzergruppen möglich, schnell, online und präzise nach relevanten Zeitungsartikeln in dem Archiv zu suchen.

Technik

Ausschnitt aus der Frakturerkennung für die erste Ausgabe der NZZ

"Bei der Digitalisierung werden in einem ersten Schritt die Filme eingescannt und in Bilddateien umgewandelt. Dann werden die Seitenränder ausfindig gemacht. Das ist wegen der verschiedenen Methoden, mit denen die Seiten aufgenommen wurden nicht immer einfach. Mit Hilfe von selbst entwickelter Software werden beim Fraunhofer-IMK Verzerrungen und Unschärfen entfernt. Dann gilt es in der Abfolge der Bilder, die von einem Film gewonnen wurden, die Titelseiten aufzuspüren, damit die Seiten zeitlich eingeordnet werden können. Schliesslich werden die Bilder im Tiff-Format gespeichert. Das Tiff-Format wurde unter anderem deshalb gewählt, weil es dank guter Dokumentation und weiter Verbreitung als De-facto-Standard gilt und mit grosser Wahrscheinlichkeit auch noch in ferner Zukunft gelesen werden kann. Auch benötigt es wenig Platz und erlaubt die Einbettung von Metadaten.

Der letzte wichtigste Verarbeitungsschritt ist die Verwandlung von Bildpunkten in Buchstaben. Dazu wird das von der russischen Software-Firma Abbyy entwickelte Texterkennungsprogramm (Optical Character Recognition, OCR) Finereader eingesetzt. Dieses Programm muss auch mit Frakturschriften zurechtkommen, die bei der NZZ bis 1946 verwendet wurden. Die Erkennungsgenauigkeit ist gemäss Stefan Eickeler, der beim IMK als Projektleiter die Digitalisierung der NZZ betreut, sehr hoch. Allerdings gebe es Seiten, bei denen Flecken die Erkennung erschweren; grosse und zum Teil noch ungelöste Schwierigkeiten bereiteten Passagen, bei denen Fraktur- und Antiquaschriften gemischt vorkommen. Falsch erkannte Wörter könnten jedoch automatisch, mit Hilfe eines Wörterbuchs, korrigiert werden. Auch beeinträchtigten einzelne Fehler im elektronischen Text das Suchresultat kaum, so dass eine 100-prozentige Erkennungsgenauigkeit nicht angestrebt werden müsse.

Für die Digitalisierung verwendet das IMK einen hybriden Cluster mit 20 Rechnern unter Windows und Linux. Resultat der Arbeit ist eine XML-Datei, die mit dem Text auch noch Metadaten abspeichert, die einzelnen Absätzen Titel zuordnen und Auskunft geben können über typografische Merkmale von Wörtern und ihre Position auf der Seite. Eine einzelne Seite benötigt in digitalisierter Form 4 MByte, das vollständige elektronische Archiv wird 10 TByte umfassen."

aus Stefan Betschon
225 Jahrgänge der NZZ werden elektronisch erschlossen
Neue Zürcher Zeitung, 226(11):59, 14. Januar 2005

Projektpartner

  • Neue Zürcher Zeitung (NZZ)
  • Scanplex