News vom 30. Juli 2009

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Fraunhofer IAIS liefert weltweit bestes Verfahren zur Layout-Analyse

Die Preisträger mit Urkunde und Trophäe
v.l.n.r.: Iuliu Konya, Stefan Eickeler und Christoph Seibert

Im internationalen Wettbewerb zur physikalischen Layout-Analyse von gescannten Dokumenten belegt das Team von Fraunhofer IAIS den ersten Platz.

Die Verfahren namhafter Firmen wie Abbyy und Google waren angetreten zum zehnten Wettbewerb ICDAR 2009 Page Segmentation Competition, der von der University of Salford im Abstand von zwei Jahren veranstaltet wird. Die Herausforderung des Wettbewerbs ist es, gescannte Seiten aus Zeitschriften und Magazinen durch automatische Verfahren so aufzubereiten, dass Text- und Bildbereiche klar voneinander getrennt werden. Erkannt werden müssen außerdem Trennlinien zwischen Textblöcken und Bereiche, in denen Störungen wie Heftungen, Lochungen usw. auftreten. Über 60 einzelne Seiten aus Wirtschafts-, Politik- und Lifestyle-Magazinen galt es in diesem Jahr korrekt zu analysieren.

Die Verfahren des Fraunhofer IAIS – entwickelt und eingereicht von Iuliu Konya, Stefan Eickeler und Christoph Seibert im Rahmen des Forschungsprojektes Theseus-Contentus – haben dabei in den Bereichen Text-, Bild- und Trennlinienerkennung klar die Nase vorn. In der Gesamtwertung überzeugt das Team mit knapp 80% korrekter Erkennung vor der Google-Lösung Tesseract (68%) und dem FineReader des OCR Marktführers Abbyy (54%). Dafür wurde das Fraunhofer-Team von der Jury mit dem ersten Preis ausgezeichnet. Die
Preisverleihung fand am 29. Juli im Rahmen der International Conference on Document Analysis and Recognition in Barcelona statt.

Bei der Digitalisierung von Zeitungen und Magazinen ist die physikalische Layout-Analyse ein erster wichtiger Schritt. Das Fraunhofer IAIS bietet die gesamte Verarbeitungskette vom gescannten Material bis zum Aufbau des digitalen Archivs an, in dem über moderne Suchmaschinen-Technologie per Mausklick einzelne Bilder und Artikel recherchiert werden können.

„Unsere Verfahren werden unter realen Bedingungen für den Bedarf unserer Kunden entwickelt und getestet. Dadurch können wir alle gängigen Layout-Varianten ohne Anpassung in hoher Qualität verarbeiten“, erklärt Christoph Seibert, Projektleiter am Fraunhofer IAIS und einer der drei Preisträger, den Wettbewerbs-Erfolg.

Das Fraunhofer IAIS hat für namhafte Kunden wie die Neue Zürcher Zeitung und den Donaukurier bereits digitale Archive aufgebaut. Die Weiterentwicklung der Algorithmen zur Dokumentenanalyse erfolgt außerdem im Rahmen der THESEUS-Initiative des Bundesministeriums für Wirtschaft und Technologie unter dem Anwendungsszenario CONTENTUS.