Donaukurier

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Der Donaukurier auf einem USB-Stick ist an einem Laptop angeschlossen.

Ausgangssituation

In diesem Projekt wurde das gesamte Archiv des Donaukuriers digitalisiert. Es umfasst alle Ausgaben von 1945 bis heute. Bis 2005 waren alle Ausgaben auf Mikrofilm gespeichert. Spätere Ausgaben waren bereits als PDF erhältlich. Archiv-Recherchen konnten bisher nur manuell auf Mikrofilm mittels eines Lesegeräts des Archivars durchgeführt werden. Aus diesem Grunde entschied sich der Donaukurier, seinen Mikrofilmbestand digital zu erschließen und so den Benutzern online zugänglich zu machen.

Herausforderung

gesuchter Text auf der Zeitungsseite markiert
Gefundene Textstellen werden auf der Zeitungsseite im Original-Layout markiert.

Das Zeitungsarchiv der vergangen 60 Jahre umfasst rund 25.000 Ausgaben mit insgesamt 1,8 Mio. Einzelseiten. Diese Einzelseiten wurden digitalisiert. Das Archiv ist online verfügbar, um den Benutzern eine schnelle und effiziente Möglichkeit zur Recherche zu bieten. Die Suche erfolgt über einen einfachen Webbrowser und bringt so den User in wenigen Sekunden zu den relevanten Zeitungsartikeln.

Außerdem gibt es für den Abo-Kunden eine Offline-Variante mit Jubiläumsausgaben des Archives auf USB-Stick oder DVD. Desweiteren ist das Archiv an das Redaktionssystem des Donaukuriers angebunden, so dass die aktuellen Ausgaben automatisch erschlossen und im Archiv hinterlegt werden können.

Projektbeschreibung

Skizze der Technik

Die digitalisierten Zeitungsdaten wurden zunächst über die Diensteplattform Medienerschließung eingelesen und archiviert. Bedingt durch Qualitätsunterschiede in der Zeitungsdigitalisierung kann es beispielsweise bei der Worterkennung, Ausgabenseparierung und Datumszuordnung zu Fehlern kommen.

Diese konnten weitgehend automatisch behoben und zudem durch ein Korrektur-Tool überprüft und verbessert werden. Datumsangaben, Schlagzeilen, Bilder und Bildunterschriften wurden ebenfalls automatisch erkannt und für die anschließende Suche indiziert. Für jedes Element wurde dessen genaue Position und Größe gespeichert. So kann zu dem Digitalisat der Volltext für die weitere Verarbeitung layoutgetreu hinterlegt und Suchtreffer exakt angezeigt werden.

Ein weiteres Funktionsmerkmal ist die Verknüpfung von separierten Bildern mit indizierten Bildunterschriften. So lassen sich ohne aufwändige Bilderkennungsverfahren im Text beschriebene Bildinhalte, insbesondere Orte und Personen, leicht finden und zum Beispiel in Form einer historischen Bildergalerie gruppieren.

Innerhalb des Projekts wurde nicht nur der Online-Webauftritt mit einer Portal-Lösung entwickelt, die an das Corporate Design und die Anforderungen des Donaukuriers angepasst ist. Darüber hinaus wurden ausgewählte Teile des Archivs zusammen mit einer Offline-Suchanwendung bereitgestellt, die separat vermarktet werden.

In einem weitergehenden Schritt können einzelne Ausgaben als PDF-Dokumente gespeichert und unabhängig vom Archiv verwendet werden. Diese Zeitungarchivlösung ist in die bestehende IT-Infrastruktur des Donaukuriers integriert worden. Mittels einer adaptiven Web-Service-Schnittstelle haben wir die spezifische Anbindung der Archivfunktionen, zum Beispiel für die integrierte Suche aus dem Redaktionssystem heraus realisiert.

Projektpartner

  • Donaukurier
  • Scanplex

Technische Daten

  • Anzahl Zeitungsseiten: 1,8 Mio
  • Gesamtvolumen der Rohdaten: 20 TB

Projektblatt

 Donaukurier_Projektblatt_01.pdf [ pdf 691,98 KB ]