Elektronischer Lesesaal
Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Herausforderung
Gedruckte Medien, wie Bücher, Zeitschriften und Zeitungen sind kulturhistorisch und marktwirtschaftlich wichtige Informationsquellen auf dem Weg zur Wissensgesellschaft. Um sie zu erschließen und zu vermarkten, werden vorhandene Dokumente digitalisiert, mit speziellen Analyseverfahren inhaltlich erschlossen und über Portale zur Verfügung gestellt.
Eine besondere Herausforderung ist der sichere und schnelle Zugriff auf zentral verwaltete Dokumentbestände über ein Netzwerk. Beim Abruf von hochqualitativen Digitalisaten müssen große Datenmengen übertragen werden. Dadurch steigt der Bandbbreitenbedarf und die Zugriffszeiten verlängern sich.
Außerdem unterliegen urheberrechtlich geschützte Dokumente besonderen gesetzlichen Beschränkungen. Für die wirtschaftliche Verwertung von digitalisierten Druckmedien ist daher neben der inhaltlichen Erschließung auch der Einsatz von geeigneten Leseanwendungen notwendig.
Konzept des elektronischen Lesesaals
Die Wissenschaftler des Fraunhofer IAIS haben im Rahmen des Forschungsprojekts CONTENTUS (Forschungsprogramm THESEUS) einen elektronischen Lesesaal entwickelt, der es ermöglicht, Digitalisate sicher und echtzeitnah über das Internet bereitzustellen. Der elektronische Lesesaal ist eine Form der intelligenten Dokumentenarbeitsplätze von Fraunhofer IAIS.
Das neue System reichert die Anzeige von Dokumenten intuitiv mit semantischen Metadaten aus der Analyse an. Auf einem Bildschirm erscheinen die digitalisierten Seiten layoutgetreu und bewahren somit den Charakter der gedruckten Medien im digitalen Umfeld.
Dokumente semantisch erschließen...
Für die Bereitstellung der digitalisierten Dokumente im elektronischen Lesesaal werden Strukturmetadaten benötigt, die neben einem seitenweisen Blättern auch die gezielte Navigation im Dokument erlauben.
Im Rahmen von CONTENTUS sind besonders für großvolumige Medienbestände automatische Verfahren zur semantischen Erschließung entstanden, die neben der physischen Dokumentstruktur auch die logischen und thematischen Verbindungen erfassen. Durch eine Seitensegmentierung können die logischen Bereiche einer Publikation, wie Inhaltsverzeichnisse, Kapitel und Artikel, automatisch getrennt werden.
Über verschiedene Text Mining-Verfahren, wie Named Entity Recognition (NER), werden daraufhin thematische Bezüge, etwa auf Personen und Orte, ermittelt und mit anderen Fundstellen aus dem Dokumentbestand des elektronischen Lesesaals vernetzt. Dazu verwaltet und indexiert ein zentrales Dokumentarchivsystem die Digitalisate zusammen mit den Metadaten.
Eine Reihe von Verfahren zur Aufbereitung von Digitalisaten sowie zu ihrer strukturellen und inhaltlichen Erschließung stehen über die Diensteplattform Medienerschließung zur Verfügung.
...und gesichert bereitstellen
Für den Abruf der Dokumente kommt eine Java-basierte Leseanwendung zum Einsatz, die den sicheren und kopiergeschützten Zugriff auf die Digitalisate über das Internet ermöglicht. Dank spezieller Optimierungsverfahren stellt das System hochauflösende Seitenbilder echtzeitnah dar. Je nach gewähltem Erschließungsgrad können Benutzer im elektronischen Lesesaal über eine Volltextsuche im angezeigten Dokument oder über eine facettierte Suche im gesamten Dokumentbestand recherchieren.
Die jeweiligen Fundstellen werden beim Abruf der Seite transparent im Digitalisat eingeblendet und liefern beim Anwählen spezifische Verweise auf weitere Informationen und andere Fundstellen im Bestand. Durch die optimierte Leseanwendung navigiert der Anwender selbst in großvolumigen Dokumenten mit mehreren Tausend Seiten intuitiv.
Der elektronische Lesesaal spielt für die inhaltliche Erschließung und wirtschaftliche Verwertung von digitalisierten Druckmedien eine große Rolle und trägt zum Aufbau einer Internet-basierten Wissensinfrastruktur bei. Dabei beachtet das System stets das Urheberrecht der gedruckten Originale.
So kommt der elektronische Lesesaal zum Beispiel für die urheberrechtskonforme Bereitstellung von Digitalisaten in öffentlichen Bibliotheken, Archiven und Museen als MyBib eRoom zum Einsatz, den das Team des Fraunhofer IAIS mit seinem Kooperationspartner ImageWare Components weiterentwickelt und vermarktet.
Systemvoraussetzungen
Für die Integration von Dokumenten in den elektronischen Lesesaal müssen digitalisierte Seiten in einem Standardbildformat (z. B. TIFF, JPG, GIF) gespeichert und mit beschreibenden Metadaten wie Titel und Autor des Dokuments versehen werden (z. B. METS/ALTO-Format). Darüber hinaus erlaubt das System auch die Einbindung von PDF-Dateien.
Der elektronische Lesesaal lässt sich zudem an vorhandene Dokumentmanagementsysteme anschließen. Dabei übernimmt er Dokumentsammlungen automatisiert mit ihren Strukturdaten, etwa für die temporäre Bereitstellung von digitalen Kopien auf Kundenanfrage.
Zur Programminstallation sind ein Anwendungsserver mit einem Java Servlet Container (z. B. Apache Tomcat) sowie ausreichend Speicherplatz zur Ablage der digitalisierten Dokumente erforderlich. Der Zugriff auf die verwalteten Dokumente kann von jedem Java-fähigen Webbrowser aus erfolgen. Werden Dokumente aufgerufen, lädt das System eine Java-Anwendung vom Server, führt sie auf dem lokalen Computer aus und greift über das Internet auf das Dokumentenarchiv zu. Das Programm benötigt somit keinen Festplattenspeicherplatz für die Installation und legt keine lokalen Dateien für die Anzeige der Dokumente an.


Lesezeichen setzen bei