Dokumentenanalyse als Service

Zeitungs- und Zeitschriftenarchive effizient erschließen

Der effiziente Zugriff auf große Archivbestände ist nur dann möglich, wenn die Inhalte vollständig erschlossen sind. Auf Basis unserer weltweit führenden Dokumentenanalysetechnologie führen wir dies als Dienstleistung für Verlage, Bibliotheken und Archive durch. Dabei sind wir in der Lage, sehr große Mengen an Dokumenten mit sehr unterschiedlicher Qualität zu verarbeiten. Je nach Anforderungen unserer Kunden erfolgt zusätzlich eine manuelle Qualitätsprüfung. Unser Vorgehen zur Dokumentenerschließung erfolgt über drei aufeinander aufbauende Verfahren, so werden die Recherchemöglichkeiten optimiert:   

1. Strukturelle Aufbereitung

Die strukturelle Aufbereitung umfasst neben der Digitalisierung die Optimierung der Qualität und das systematische Erfassen der Digitalisate. Mittels der vollautomatischen Qualitätsoptimierung werden hierbei z. B. auch Risse und Falzmarken entfernt sowie das Schriftbild geglättet und Bilder geschärft.

2. Inhaltliche Erschließung

Zur inhaltlichen Erschließung werden Bilder mittels Optical Character Recognition (OCR) in Texte umgewandelt, so dass neben dem Original-Layout auch der Volltext zur Verfügung steht. Zusätzlich werden zum Beispiel aus Zeitungsseiten einzelne Artikel herausgetrennt. Durch diese automatisierte Artikelsegmentierung können jetzt einzelne Inhaltsbausteine neu miteinander kombiniert und in neuen Produkten gebündelt werden.

3. Semantische Exploration

Bei der Semantischen Exploration werden durch Textmining-Verfahren unter anderem Personen wie Politiker, Stars oder Musiker identifiziert. Diese bilden dann die Grundlage zur Anreicherung der Dokumente mit Inhalten aus weiteren Quellen. Die automatische Dokumentenerschließung wird sowohl im Segment der Zeitungs- und Zeitschriftenverlage als auch für Buchverlage und Bibliotheken eingesetzt. Zu unseren Kunden zählen die Deutsche Digitale Bibliothek ebenso wie der Kicker, die Bayerische Staatsbibliothek und die Staatsbibliothek zu Berlin.