Referenzprojekte

DeepER: eine OCR-Engine auf Basis von Deep Learning

Eine Vielzahl von Texten und Informationen wird heute digitalisiert und maschinell erfasst. Dennoch gelingt es den wenigsten Programmen, die Lesefähigkeit des Menschen zu erreichen und Dokumente fehlerfrei zu erkennen. Besonders alte und schwer erkennbare Texte bilden Herausforderungen, denen sich das Fraunhofer IAIS im Rahmen des vom Bundesministerium für Bildung und Forschung (BMBF) geförderten Projekts »DeepER« gestellt hat. In Zusammenarbeit mit der CIB software GmbH hat ein Fraunhofer-Team eine robuste Allzweck-OCR-Engine mithilfe neuronaler Netze trainiert. Systematische Tests zeigen, dass die Erkennungsqualität mindestens ebenbürtig zu den etablierten Systemen ist.

zur Pressemitteilung

Tabellenerkennung in wissenschaftlichen Veröffentlichungen

Neurodegerenative Krankheiten wie Alzheimer gehören zu den größten medizinischen Herausforderungen unserer Zeit. Gemeinsam mit Fraunhofer SCAI (Sankt Augustin) und Fraunhofer IME (Hamburg) ist das Fraunhofer IAIS in diesem Projekt auf der Suche nach einer effektiven Präventionstherapie gegen Alzheimer. Große Mengen wissenschaftlicher Veröffentlichungen werden automatisiert nach Tabellen durchsucht, welche mögliche Wirkstoffe enthalten. Die Dokumentenverarbeiter des Fraunhofer IAIS entwickeln und optimieren in diesem Kontext die entsprechenden Algorithmen zum Auffinden und Interpretieren der Tabellen. Die Resultate werden genutzt, um anhand von Simulationen (»in silico«) vielversprechende Substanzen für die Alzheimerprävention zu identifizieren (SCAI) und schließlich im Hamburger Institut (IME) mittels zellulärer Testsysteme (»in vitro«) zu verifizieren.

Die Verfahren für die Tabellenerkennung (Detektion, Segmentierung und Interpretation von Tabellen in Dokumenten) werden in die Software-Bibliothek des Fraunhofer IAIS »docuLib« aufgenommen. Sie können als eigenständiges Modul in zahlreichen Kontexten eingesetzt werden, beispielsweise zur Erkennung von Tabellen in Rechnungen oder Unternehmensbilanzen.

zum Projektblog

Optimierung der Suche in der ARD-Mediathek

Die ARD-Mediathek enthält eine Vielzahl von audiovisuellen Beiträgen der neun Landesrundfunkanstalten. Zu jedem Beitrag gibt es bereits manuell annotierte Metadaten wie beispielsweise der Titel, die Sendereihe, aber auch Kurzbeschreibungen. Mit Hilfe unseres Audio-Mining-Systems werden die Beiträge tiefer erschlossen und die vorhandenen Metadaten um das Transkript der gesprochenen Sprache erweitert. Zusätzlich werden automatisch die für einen Beitrag wesentlichen Schlagworte ermittelt.  

WDR Archiv: Automatische Erschließung von Radio- und TV-Beiträgen

Bisher können Medienarchive nur nach manuell annotierten Metadaten wie Titel, Sendereihe oder Stichwörtern durchsucht werden. Eine umfassende Erschließung durch Archivare erfolgt nur für einen Teil des Archivmaterials. Mit Hilfe unseres Audio-Mining-Systems hingegen kann ein digitales Archiv vollständig erschlossen und zusätzlich nach gesprochenen Wörtern durchsucht werden. Hierzu werden mittels automatischer Spracherkennung die gesprochenen Wörter transkribiert sowie automatisch Schlüsselwörter extrahiert. Im Rahmen des Projektes wurde das Audio-Mining-System in die Archiv-Systemlandschaft des WDR integriert und befindet sich im stabilen täglichen Betrieb.

Da ein Teil der Sendungen des WDR lokalen Charakter mit NRW-Bezug haben, haben wir die Spracherkennung an lokale Begebenheiten, wie zum Beispiel Orts- und Personennamen angepasst sowie auf den neuesten Stand gebracht. So konnte die Erkennungsqualität auf WDR-spezifischen Sendungen wesentlich verbessert werden.

News-Stream – Big-Data-Tools für Journalisten

Soziale Medien, persönliche Kommunikation, aber zunehmend auch vernetzte Sensoren, liefern einen kontinuierlichen, ständig wachsenden Datenstrom in Echtzeit. Der Journalismus muss mit zukunftsfähigen Technologien ausgestattet werden, um die journalistischen Kernaufgaben zu sichern und auszubauen. Das ist von hoher technologischer, aber nicht zuletzt auch gesellschaftlicher Relevanz, um der Bevölkerung auch in Zukunft verlässliche Information und Orientierung zu liefern. Zudem entscheiden diese journalistischen Mehrwerte mit darüber, wie sich die Geschäftsmodelle von Medienunternehmen zukünftig gestalten lassen. Dieser Herausforderung stellt sich das Projekt »News-Stream«.  

Automatische Klassifikation von digitalen Dokumenten

Die M&H Novedia Finance AG vermarktet eine Security-Lösung für das Rechtemanagement für digitale Dokumente. Für diesen Zweck ist es unerlässlich, dass die Benutzer eine Sicherheitsstufe für jedes Dokument manuell festlegen. Die Wahl der richtigen Sicherheitsstufe hängt aber von vielen Faktoren ab und stellt sich oftmals als eine langwierige Angelegenheit heraus. Hier setzte das gemeinsame Forschungsprojekt an, das im Rahmen des Programms »Zentrales Innovationsprogramm Mittelstand« durch das BMWi (Bundesministeriums für Wirtschaft und Energie) gefördert wurde.

Gemeinsam mit unserem Projektpartner entwickelte Fraunhofer IAIS eine Lösung zur automatischen Klassifikation von Dokumenten. Aufbauend auf langjähriger Erfahrung in der Dokumentenanalyse wurde ein robustes System entwickelt, das auf Grundlage von Trainingsdaten Merkmale extrahiert und mittels Methoden des Maschinelles Lernens optimale Entscheidungskriterien für die Dokumentenklassifikation erlernt.

Das Klassifikationsmodul ist Teil der Software-Bibliothek des Fraunhofer IAIS »docuLib« und kann zur Unterscheidung verschiedenster Dokumente eingesetzt werden – beispielsweise für das Posteingangsmanagement.

Studie zum Archivsystem der Zukunft für den WDR

Wie kann ein Archivsystem in Zeiten crossmedialer Inhaltsnutzung sowie der stetig wachsenden Menge von Mediendaten (Stichwort: Big Data) zukunftsfähig und nachhaltig gemacht werden? Im Rahmen des Projektes haben wir für den Westdeutschen Rundfunk ein Konzept für das »Archivsystem der Zukunft« entwickelt, welches die strategische Ausrichtung des WDR als crossmediales sowie themenorientiertes Medienhaus von Archivsystemseite unterstützt.

Im Rahmen der Studie wurden bestehende Archivsysteme in Hinblick auf ihre Architektur, Funktionalität sowie die verwendeten Technologien analysiert und bewertet. Anhand der Anforderungen an ein zukunftsfähiges Archivsystem konnte so auf der Basis einer fundierten Technologieberatung eine Entscheidungshilfe für mehrere mögliche Alternativen gegeben werden.

FotoTV: Spracherkennung für Video SEO und Suche

Mit über 1000 Fotoworkshops, Tutorials für die Bildbearbeitung und Experten-Interviews als Video-Clips, ist FotoTV eine innovative Online-Lernplattform rund um die Fotografie. Suchmaschinen konnten bisher nur erahnen, welch hochrelevanter Inhalt hier bereit gestellt wird. Damit die Nutzer sich nun schneller über Tricks und Kniffe beim Fotografieren informieren können, haben wir das FotoTV-Archiv sowohl für Suchmaschinen als auch für die Nutzer online durchsuchbar gemacht. Automatische Spracherkennung, auch Speech-to-text genannt, macht es möglich.