Automatische Dokumentenerschließung

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Der effiziente Zugriff auf große Archivbestände ist nur dann möglich, wenn die Inhalte vollständig erschlossen sind. Eine solche Erschließung von Dokumenten unterstützt die Recherche und wird über drei aufeinander aufbauende Verfahren erreicht. Deren Gemeinsamkeit besteht darin, zusätzliche Metadaten bereitzustellen.

Die strukturelle Aufbereitung ist der erste Schritt. Sie umfasst neben der Digitalisierung die Optimierung der Qualität und das systematische Erfassen der Digitalisate. Mittels der vollautomatischen Qualitätsoptimierung werden hierbei z. B. auch Risse und Falzmarken entfernt sowie das Schriftbild geglättet und Bilder geschärft.

Daran knüpft die inhaltliche Erschließung an. Hier werden Bilder mittels Optical Character Recognition (OCR) in Texte umgewandelt, so dass neben dem Original-Layout auch der Volltext zur Verfügung steht. Zusätzlich werden aus z. B. Zeitungsseiten einzelne Artikel herausgetrennt. Durch diese automatisierte Artikelsegmentierung können jetzt einzelne Inhaltsbausteine neu miteinander kombiniert und in neuen Produkten gebündelt werden.

Die semantische Exploration ist schließlich der dritte Schritt. Dabei werden durch Textmining-Verfahren z. B. Personen wie Politiker, Stars oder Musiker identifiziert. Diese bilden dann die Grundlage zur Anreicherung der Dokumente mit Inhalten aus weiteren Quellen. Das können z. B. Videos zu einem Politiker oder die Alben eines Musikers sein. Die semantische Exploration ist damit gleichzeitig eine Grundlage zur Verknüpfung von Medieninhalten und E-Commerce-Modellen.

Die automatische Dokumentenerschließung setzt Fraunhofer IAIS sowohl im Segment der Zeitungs- und Zeitschriftenverlage als auch für Buchverlage und Bibliotheken um. Dazu zählt die Deutsche Digitale Bibliothek ebenso wie die Staatsbibliothek zu Berlin. Die Verfahren sind darüber hinaus auch Bestandteil der Diensteplattform Medienerschließung.