Neue Wege zu altem Wissen

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Ausgangsmaterial

CONTENTUS

In Bibliotheken, Archiven und Datenbanken schlummern die Wissensschätze unserer Gesellschaft. Digitalisierung, Metadaten und das Internet haben deren Nutzung vereinfacht; die inhaltliche Erschließung der Dokumente und damit die Unterstützung bei der Recherche in den Inhalten stellt für die Informationstechnik jedoch nach wie vor eine gewaltige Herausforderung dar. Mit dem Projekt CONTENTUS, einem Teil des Forschungsprogramms THESEUS, arbeiten Fraunhofer IAIS und seine Partner an Lösungen für eben diese Probleme.

Ziele

Historische Tondokumente
Historische Tondokumente können erschlossen werden

Das Projekt entwickelt neue Verfahren für die automatische Aufbereitung und Analyse von archivierten multimedialen Inhalten wie Texten, Bildern, Audio- und Video-Daten. Der zweite Schwerpunkt liegt in der semantischen Annotation und damit der eigentlichen inhaltlichen Erfassung der Bestände. Insgesamt soll ein modularer und effizienter Workflow von der Digitalisierung der Inhalte bis zu ihrer semantischen Vernetzung entwickelt werden.

Nutznießer der neuen Techniken wird der Anwender sein, der bei der thematischen Recherche in den erfassten Beständen unterstützt werden soll. Durch die Nutzung von Wissensmodellen unter Einbeziehung bestehender Systematiken soll dies weit über das derzeit in Bibliotheks- und Archivsystemen verfügbare Maß hinaus ermöglicht werden.

Technologien

Buch-Scanner
Automatische Buch-Digitalisierung

Für die Erfassung der Inhalte kommen neue, im Zuge des Projekts entwickelte Audio-, Video- und Texterkennungsverfahren zum Einsatz, die speziell auf Herausforderungen bei der Digitalisierung solcher Dokumentbestände ausgerichtet sind: Durch die Lagerung der Materialien entstehen Schäden an den Originalen, die nach der Digitalisierung teilweise algorithmisch restauriert werden können.

Aber auch während der Digitalisierung selbst können Fehler auftreten, die vor der weiteren Verarbeitung korrigiert werden, um die Erfassung der Inhalte zu optimieren. Nach der Digitalisierung wird die Struktur der Dokumente aufgeschlüsselt und die zugehörigen Metadaten erfasst.

Durch die Kombination unterschiedlicher Analyse- und Data-Mining-Technologien mit aktuellen Ansätzen aus dem Wissensmanagement werden die Materialien inhaltlich strukturiert und klassifiziert. Eine der größten Herausforderungen liegt darin, die Bedeutung natürlichsprachiger Texte und Multimediainhalte zu erschließen.

Durch Verfahren der Informationsextraktion werden Fakten und deren Relationen in den Dokumenten identifiziert, beispielsweise Geburtsorte und Geburtsdaten von Personen. Ausgehend von einer Vielzahl bereits bestehender Informationen werden die gewonnenen Fakten semantisch vernetzt und mit externen Inhalten so in Beziehung gesetzt, dass sie von Computern interpretiert und weiterverarbeitet werden können.

Zur Unterstützung des Nutzers bei der Recherche werden spezielle semantische Suchmaschinen entwickelt, die auf der Basis von thematischen Anfragen in den erschlossenen Daten inhaltlich relevante Abschnitte finden und als Digitalisat unmittelbar zur Verfügung stellen.

THESEUS-Programm

Theseus-Logo

Das Forschungsprogramm THESEUS leistet einen Beitrag für eine neue internetbasierte Wissensinfrastruktur, in der das Wissen im Internet künftig besser aufbereitet und genutzt werden kann. Unter dem Dach von THESEUS entwickeln hierzu öffentliche und industrielle Forschungspartner gemeinsam innovative Basistechnologien und technische Standards.

Zu den Basistechnologien, die von den Forschungspartnern entwickelt werden, gehören unter anderem Funktionen zur automatisierten Erzeugung von Metadaten für Audio-, Video-, 2D und 3D- Bilddateien und deren anwendungsspezifische Kombination, sowie Mechanismen für die semantische Verarbeitung multimedialer Dokumente und der damit verknüpften Services.

Im Fokus der Forschung steht auch die Entwicklung von Werkzeugen für das Management Ontologien-unterstützter Wissensrepräsentation. Darüber hinaus entwickelt das Konsortium neue Methoden des maschinellen Lernens und der situationsbewussten Dialogverarbeitung. Gleichzeitig wird auch an innovativen Benutzeroberflächen und Interfaces gearbeitet.

Diese Basistechnologien werden von den Industriepartnern im Konsortium in sechs Anwendungsszenarien prototypisch umgesetzt und erprobt. Dabei soll überprüft werden, wie diese neuen Technologien zeitnah in innovative Werkzeuge, marktfähige Dienste und erfolgsversprechende Geschäftsmodelle für das World Wide Web und andere internetbasierte Netzwerke umgesetzt werden können.

Ergebnisse und Verwertung

Fraunhofer IAIS und seine Partner nutzen im Rahmen von CONTENTUS entwickelte Technologien in einer Reihe von Kontexten. Dazu zählt die Verwendung verschiedener Verfahren der Medienerschließung durch die Deutsche Digitale Bibliothek und daran beteiligte Kultureinrichtungen wie Bibliotheken und Archive.

Den beteiligten Einrichtungen stehen sowohl zur Aufbereitung von Digitalisaten als auch zu ihrer strukturellen und inhaltlichen Analyse unterschiedliche CONTENTUS-Technologien zur Verfügung. Dazu zählen beispielsweise Verfahren zum Entzerren und Schärfen von Bildern, zur Segmentierung von Zeitungsseiten und zur Texterkennung.

Entwickelte Algorithmen und ihr Zusammenspiel in medienspezifischen Workflows werden über die Diensteplattform Medienerschließung bereitgestellt und genutzt, um reichhaltige Metadaten zu erzeugen. Mit der Plattform können Medienbestände in Volumina jeglicher Größen automatisiert erschlossen und die Ergebnisse in eigene Anwendungen eingebunden werden.

Darüber hinaus wurden Forschungsergebnisse aus CONTENTUS genutzt, um Anwendungen wie das Zeitschriftenarchiv EMMAdigital, das ARD Web-Duell und den elektronischen Lesesaal zu realisieren.

Förderung

BMWI-Logo

Bundesministerium für Wirtschaft und Technologie