Mit unseren Technologien können intelligente Maschinen visuelle und auditive Informationen verarbeiten, Situationen beurteilen und mit ihrer Umwelt interagieren. Denn autonome Fahrzeuge, die am Straßenverkehr teilnehmen, oder Roboter, die in der Produktion mit Menschen zusammenarbeiten, müssen ihre Umwelt wahrnehmen können. Ohne eine solche Fähigkeit zur Wahrnehmung ist ein kollaboratives Zusammenwirken von Menschen und intelligenten Systemen nicht möglich.
Um sich schnell ein genaues Bild von seiner Umgebung zu verschaffen, kombiniert der Mensch oft verschiedene Sinneseindrücke und verarbeitet diese gleichzeitig. Ähnlich müssen auch künstlich intelligente Systeme häufig mehrere Informationskanäle nutzen und die Information in Echtzeit verarbeiten, um eine Situation zu beurteilen oder vorherzusagen.
Diesen Herausforderungen stellen wir uns, indem wir Verfahren des Maschinellen Lernens zum Beispiel gezielt für die Verarbeitung von auditiven und visuellen Informationen anpassen. Um beispielsweise in Fernsehaufzeichnungen individuelle Sprecher zu identifizieren, verwenden wir eine Kombination aus Gesichtserkennung und Sprechererkennung anhand der Charakteristik einer Stimme. Eine solche multimodale Indizierung, also die Kombination und Auswertung von Informationen aus verschiedenen Kanälen und Formaten, erhöht die Zuverlässigkeit und Schnelligkeit der Erkennung.
Bei der Erkennung von gesprochener Sprache auf Deutsch sind die von uns entwickelten Systeme weltweit führend. Wir können hier auf eine große Menge an Trainingsdaten in Form unserer eigenen Sprachdatenbank zurückgreifen, die über 1000 Stunden transkribierte Sprachaufzeichnungen enthält. Unsere Lösungen sind unter anderem in der Medienbranche seit vielen Jahren erfolgreich im Einsatz und werden stetig weiterentwickelt.
Zur Erkennung von Objekten, beispielsweise Verkehrszeichen, setzen wir Maschinelles Lernen mit tiefen neuronalen Netzen ein. Diese Deep-Learning-Verfahren sind insbesondere dann erfolgreich, wenn es in den Daten eine hierarchische Struktur gibt und eine große Anzahl von Trainingsdaten vorhanden ist.
In Anwendungsszenarien, in denen nicht genügend Trainingsdaten vorhanden sind, setzen wir auf Verfahren des hybriden Maschinellen Lernens, die es erlauben neben Daten auch das Wissen von Experten einzubeziehen. Zudem forschen wir an weiteren Lösungen zum dateneffizienten Lernen, die beispielsweise darauf abzielen, künstliche Trainingsdaten zu generieren.