Multimedia Pattern Recognition

Mustererkennung in multimedialen Daten

Im Bereich »Multimedia Pattern Recognition« erforschen und entwickeln wir Verfahren, Tools und Softwarelösungen zur Mustererkennung in Sprach-, Bild-, Audio- und Videodaten sowie in Dokumenten. Durch den starken Anstieg an digitalen Daten nimmt auch der Bedarf an automatischen Analyse- und Erkennungsmethoden zu. Oft muss die Auswertung dabei in Echtzeit geschehen – etwa bei der automatischen Erkennung von Verkehrszeichen oder der Erzeugung von Untertiteln bei Live-Übertragungen. Zudem ist durch die enorme Datenmenge eine manuelle Auswertung der Daten ökonomisch nicht sinnvoll.  

Methodik: Datengetriebenes Vorgehen und lernende Verfahren

Bei der Erforschung und Entwicklung von Mustererkennungstechnologien werden vor allem zwei Aspekte berücksichtigt: Erstens werden zur Erkennung in der Regel statistische Klassifikatoren verwendet, die mit umfangreichen annotierten Datenbanken trainiert werden. Dieses datengetriebene Vorgehen führt zu robusten Erkennungstechnologien und ermöglicht den Einsatz von lernenden Verfahren. Zweitens werden die Mustererkennungstechnologien so ausgewählt und entwickelt, dass diese sich für den Produktiveinsatz eignen. Konkrete Anwendungsszenarien liefern Anforderungen für die Forschungs- und Entwicklungsarbeiten auf diesem Gebiet.

Stabile Erkennungstechnologien für lange Laufzeiten  

Bei der eigentlichen Erkennung kommen statistische Klassifikatoren – zum Beispiel tiefe neuronale Netze, Support Vector Machines, Hidden-Markov-Models – für die transformierten Eingangsdaten zum Einsatz. Weil die Erkennungstechnologien in einem produktiven Umfeld eingesetzt werden, müssen sie hinsichtlich Laufzeitverhalten und Wartbarkeit besonders stabil sein.

Forschungsschwerpunkte

Unsere Forschungsschwerpunkte umfassen Technologien zur medienübergreifenden Mustererkennung, die in umfangreichen Softwarebibliotheken gepflegt, konsequent weiterentwickelt und kundenspezifisch adaptiert werden.

Dokumentenanalyse

Wir erforschen und entwickeln innovative Algorithmen, um die Qualität und Geschwindigkeit von Dokumentenanalysen zu optimieren. Darüber hinaus suchen wir Lösungen für neue Problemstellungen wie zum Beispiel die Tabellenstrukturerkennung oder Dokumentenklassifikation.

Sprach- und Audioanalyse

Unsere Forschungsthemen umfassen sowohl die Indexierung gesprochener Dokumente als auch die Mustererkennung auf Audiodaten. Der Schwerpunkt liegt in der Verbesserung unseres Spracherkenners für die deutsche Sprache. Darüber hinaus erforschen wir Verfahren zur Audio-Segmentierung und Sprechererkennung.

Bild- und Videoanalyse

Basistechnologien zur Objekt-Detektion, -Erkennung und -Verfolgung optimieren wir hinsichtlich Laufzeit, Ergebnisqualität, Ressourcen- und Energieverbrauch. Die Verfahren wenden wir auf Kamerabildern und Videodaten sowie auf Ultraschall-, Hyperspektral-, Laser- und Radarbildern an.