»kicker Archiv«: Fraunhofer IAIS macht 50 Jahre Fußballgeschichte digital verfügbar

Presseinformation / 17.12.2015

Fußballfans haben jetzt vom Computer, Tablet oder Smartphone Zugriff auf über 5.000 Ausgaben des »kicker-sportmagazins«, vom ersten Heft nach Einführung der Fußball-Bundesliga im Jahr 1963 bis hin zur aktuellen Ausgabe am Kiosk. Das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS realisierte das »kicker Archiv« – durch den Einsatz neuester Dokumentenanalyse-Technologien zur Erschließung von digitalisierten Dokumentbeständen können Abonnenten und Redakteure mittels Volltextsuche in über 300.000 kicker-Seiten stöbern. Dabei gehen die Funktionen der Plattform weit über die bloße Darstellung digitalisierter Dokumente am Bildschirm hinaus.

© kicker
Das gesamte »kicker Archiv« ist jetzt via App auf mobilen Geräten jederzeit und von jedem Ort aus zugänglich.
© kicker
Mit der Fraunhofer-Technologie werden nicht nur Metadaten, sondern gesamte Artikel auf Textbasis nach Schlagworten durchsuchbar.

»Mit dem kicker Archiv haben wir die Basis für eine Vielzahl von Anwendungen zur Zweitverwertung der historischen kicker-Ausgaben entwickelt, die eine Suche direkt in den Artikeltexten ermöglichen«, sagt Dr. Joachim Köhler, Abteilungsleiter NetMedia am Fraunhofer IAIS. »Der Nutzer kann beispielsweise den Namen eines Spielers als Suchbegriff eingeben und erhält in der Ergebnisübersicht nicht wie bisher üblich nur die Ausgaben und Seitenzahlen genannt, sondern auch die Artikeltexte, in denen der Begriff vorkommt. Technisch möglich ist das durch Artikel-Separierung mit einer speziell angepassten OCR-Verarbeitung.« kicker-Journalisten sowie Leser können auf diese Weise viel genauer nach archivierten Inhalten suchen und den Kontext, in dem der Suchbegriff veröffentlicht wird, erfassen.

Die inhaltliche Erschließung von digitalisierten Zeitungen stellt durch Layout-Besonderheiten eine Herausforderung dar: Eine konventionelle Texterkennung ist nicht in der Lage, einzelne Artikel seitenübergreifend zu separieren und ihre Bestandteile zu identifizieren. Aber nur mit Metadaten wie Überschrift, Textkörper, Autorenangaben, Bildern und Bildunterschriften kann ein zeitgemäßes Archiv aufgebaut und eine optimale Suche ermöglicht werden. Dabei kommen zum Beispiel Algorithmen zur Bildoptimierung zum Einsatz. Automatische Verfahren zur semantischen Erschließung großer digitalisierter Dokumentsammlungen ermöglichen die gezielte Suche und Verknüpfung von Informationen in den Dokumentbeständen. Die Suche erfolgt dabei ähnlich, wie es Internetnutzer von Suchmaschinen für Webseiten gewöhnt sind.

Dank der Fraunhofer-Software können auch eingescannte Print-Dokumente der älteren Jahrgänge ausgewertet werden, obwohl sie meist keine gute Qualität aufweisen. Auch schwierige Farbkombinationen wie weiße Überschrift auf blauem Hintergrund, die die Texterkennung erschweren, stellen mit dem Fraunhofer-Verfahren kein Problem dar und minimieren die manuelle Nachbereitung und Qualitätssicherung auf ein Minimum. Für beste Ergebnisse setzt das Team des Fraunhofer IAIS auch beim »kicker Archiv« auf ein kombiniertes Modell aus automatischen und manuellen Erschließungsmethoden und arbeitet für die manuelle Nachbereitung mit dem Archivierungsdienstleister ArchivInForm zusammen. Die Darstellung der Inhalte erfolgt über diverse Plattformen, beispielsweise über die Anwendung MyBib eL® von ImageWare oder App-basierte Anwendungen, die speziell für Smartphones und Tablets entwickelt wurden. So können Anwender einzelne Ausgaben im kicker eMagazine abrufen und nutzen.

Die semantischen Technologien zur Artikelsegmentierung und -erschließung, die beim »kicker Archiv« zum Einsatz kommen, haben die Fraunhofer-Wissenschaftler ursprünglich im Kontext des vom Bundesministerium für Wirtschaft und Technologie geförderten Forschungsprogramms THESEUS entwickelt. Die Technologien zur Erschließung von Zeitungs- und Zeitschriftenbeständen werden in den unterschiedlichsten Bereichen der Medienbranche, wie Zeitungs- und Zeitschriftenverlagen, Bibliotheken und Archiven, eingesetzt.