Ausgangssituation
In diesem Projekt wurde das gesamte Archiv des Donaukuriers digitalisiert. Es umfasst alle Ausgaben von 1945 bis heute. Bis 2005 waren alle Ausgaben auf Mikrofilm gespeichert. Spätere Ausgaben waren bereits als PDF erhältlich. Archiv-Recherchen konnten bisher nur manuell auf Mikrofilm mittels eines Lesegeräts des Archivars durchgeführt werden. Aus diesem Grunde entschied sich der Donaukurier, seinen Mikrofilmbestand digital zu erschließen und so den Benutzern online zugänglich zu machen.
Herausforderung
Das Zeitungsarchiv der vergangen 60 Jahre umfasst rund 25.000 Ausgaben mit insgesamt 1,8 Mio. Einzelseiten. Diese Einzelseiten wurden digitalisiert. Das Archiv ist online verfügbar, um den Benutzern eine schnelle und effiziente Möglichkeit zur Recherche zu bieten. Die Suche erfolgt über einen einfachen Webbrowser und bringt so den User in wenigen Sekunden zu den relevanten Zeitungsartikeln.
Außerdem gibt es für den Abo-Kunden eine Offline-Variante mit Jubiläumsausgaben des Archives auf USB-Stick oder DVD. Desweiteren ist das Archiv an das Redaktionssystem des Donaukuriers angebunden, so dass die aktuellen Ausgaben automatisch erschlossen und im Archiv hinterlegt werden können.
Projektbeschreibung
Die digitalisierten Zeitungsdaten wurden zunächst über die Diensteplattform Medienerschließung eingelesen und archiviert. Bedingt durch Qualitätsunterschiede in der Zeitungsdigitalisierung kann es beispielsweise bei der Worterkennung, Ausgabenseparierung und Datumszuordnung zu Fehlern kommen.
Diese konnten weitgehend automatisch behoben und zudem durch ein Korrektur-Tool überprüft und verbessert werden. Datumsangaben, Schlagzeilen, Bilder und Bildunterschriften wurden ebenfalls automatisch erkannt und für die anschließende Suche indiziert. Für jedes Element wurde dessen genaue Position und Größe gespeichert. So kann zu dem Digitalisat der Volltext für die weitere Verarbeitung layoutgetreu hinterlegt und Suchtreffer exakt angezeigt werden.
Ein weiteres Funktionsmerkmal ist die Verknüpfung von separierten Bildern mit indizierten Bildunterschriften. So lassen sich ohne aufwändige Bilderkennungsverfahren im Text beschriebene Bildinhalte, insbesondere Orte und Personen, leicht finden und zum Beispiel in Form einer historischen Bildergalerie gruppieren.
Innerhalb des Projekts wurde nicht nur der Online-Webauftritt mit einer Portal-Lösung entwickelt, die an das Corporate Design und die Anforderungen des Donaukuriers angepasst ist. Darüber hinaus wurden ausgewählte Teile des Archivs zusammen mit einer Offline-Suchanwendung bereitgestellt, die separat vermarktet werden.
In einem weitergehenden Schritt können einzelne Ausgaben als PDF-Dokumente gespeichert und unabhängig vom Archiv verwendet werden. Diese Zeitungarchivlösung ist in die bestehende IT-Infrastruktur des Donaukuriers integriert worden. Mittels einer adaptiven Web-Service-Schnittstelle haben wir die spezifische Anbindung der Archivfunktionen, zum Beispiel für die integrierte Suche aus dem Redaktionssystem heraus realisiert.
Projektpartner
- Donaukurier
- Scanplex
Technische Daten
- Anzahl Zeitungsseiten: 1,8 Mio
- Gesamtvolumen der Rohdaten: 20 TB





Lesezeichen setzen bei