Die Erkennung und Analyse von Sprache, Audiosignalen, Bildern, Videos und Dokumenten mittels Künstlicher Intelligenz bilden den Schwerpunkt unserer Forschungsarbeit.

Cognitive Perception

Mit unseren Technologien können intelligente Maschinen visuelle und auditive Informationen verarbeiten, Situationen beurteilen und mit ihrer Umwelt interagieren. Denn autonome Fahrzeuge, die am Straßenverkehr teilnehmen, oder Roboter, die in der Produktion mit Menschen zusammenarbeiten, müssen ihre Umwelt wahrnehmen können. Ohne eine solche Fähigkeit zur Wahrnehmung ist ein kollaboratives Zusammenwirken von Menschen und intelligenten Systemen nicht möglich.

Um sich schnell ein genaues Bild von seiner Umgebung zu verschaffen, kombiniert der Mensch oft verschiedene Sinneseindrücke und verarbeitet diese gleichzeitig. Ähnlich müssen auch künstlich intelligente Systeme häufig mehrere Informationskanäle nutzen und die Information in Echtzeit verarbeiten, um eine Situation zu beurteilen oder vorherzusagen.

Diesen Herausforderungen stellen wir uns, indem wir Verfahren des Maschinellen Lernens zum Beispiel gezielt für die Verarbeitung von auditiven und visuellen Informationen anpassen. Um beispielsweise in Fernsehaufzeichnungen individuelle Sprecher zu identifizieren, verwenden wir eine Kombination aus Gesichtserkennung und Sprechererkennung anhand der Charakteristik einer Stimme. Eine solche multimodale Indizierung, also die Kombination und Auswertung von Informationen aus verschiedenen Kanälen und Formaten, erhöht die Zuverlässigkeit und Schnelligkeit der Erkennung.

Bei der Erkennung von gesprochener Sprache auf Deutsch sind die von uns entwickelten Systeme weltweit führend. Wir können hier auf eine große Menge an Trainingsdaten in Form unserer eigenen Sprachdatenbank zurückgreifen, die über 1000 Stunden transkribierte Sprachaufzeichnungen enthält. Unsere Lösungen sind unter anderem in der Medienbranche seit vielen Jahren erfolgreich im Einsatz und werden stetig weiterentwickelt.

Zur Erkennung von Objekten, beispielsweise Verkehrszeichen, setzen wir Maschinelles Lernen mit tiefen neuronalen Netzen ein. Diese Deep-Learning-Verfahren sind insbesondere dann erfolgreich, wenn es in den Daten eine hierarchische Struktur gibt und eine große Anzahl von Trainingsdaten vorhanden ist.

In Anwendungsszenarien, in denen nicht genügend Trainingsdaten vorhanden sind, setzen wir auf Verfahren des hybriden Maschinellen Lernens, die es erlauben neben Daten auch das Wissen von Experten einzubeziehen. Zudem forschen wir an weiteren Lösungen zum dateneffizienten Lernen, die beispielsweise darauf abzielen, künstliche Trainingsdaten zu generieren.

Forschungsschwerpunkte

Multimodale Erkennung und Indizierung

Kombination mehrerer Eingabekanäle wie Sprecher- und Gesichtserkennung und multimodale Indizierung für das Auffinden von medialen Inhalten und Sequenzen, beispielsweise in Videos

Dateneffizientes Lernen

Lernen aus wenigen Trainingsbeispielen mithilfe von Datenaugmentierung, Generierung künstlicher Daten, Transferlernen, halbüberwachtem und aktivem Lernen

Repräsentationslernen

Unüberwachtes Lernen von semantisch sinnvollen Repräsentationen von Rohdaten mit Deep-Learning-Verfahren

Eingebettete und Echtzeit-Wahrnehmung

Effiziente Echtzeitverarbeitung auf Geräten mit integrierten Sensoren, leistungsfähige eingebettete Hardware und Parallelrecheneinheiten in mobilen Systemen

 

Highlights

Fraunhofer AudioMining für die ARD

In einer langfristigen Kooperation mit der ARD setzen wir die automatische Sprach-erkennung und weitere Audiotechnologien wie die Sprechererkennung sowohl im Archiv als auch im redaktionellen Bereich ein. Hiermit ermöglichen wir es den Journalist*innen, sämtliche Sendungen des Archivs nach gesprochenen Wörtern zu durchsuchen, um relevante Beiträge wiederzufinden. Durch die Sprechererkennung können sogar Aussagen bestimmter Personen zielgerichtet gefunden werden. Die Generierung von Untertiteln oder die Transkribierung von Rohmaterial ergänzt die redaktionelle Unterstützung.

Live-Untertitelung im Sächsischen Landtag

Unser Spracherkenner wird unter anderem vom Sächsischen Landtag für die Live-Untertitelung von Videos zur Übertragung der Plenarsitzungen genutzt. Dafür haben wir das System auf viele Fachbegriffe aus Politik und Recht sowie die Namen von Politikern trainiert. Ein Zusatzmodul übernimmt den Einbau von Satzzeichen und verleiht dem Textfluss Struktur. Auf den Spracherkenner kann man über die Cloud zugreifen. Für Anwendungen mit hohen Datenschutzanforderungen ist auch eine lokale Installation auf einer Standard-Server-Architektur möglich.

Sprachdialogsystem

Gemeinsam mit der Volkswagen AG haben wir ein prototypisches Sprachdialogsystem entwickelt. Integriert im Auto dient das Dialogsystem dem Fahrer als interaktiver Stadtführer, der Fragen zu ausgewählten Sehenswürdigkeiten auf der Strecke beantwortet. Der Prototyp zeigt exemplarisch das Zusammenspiel unserer Sprachtechnologien – Spracherkennung, Inhaltsanalyse anhand von Wissensgraphen und Sprachsynthese – für Dialogsysteme mit domänenspezifischem Wissen.

Patent zur Bild-
erkennung

Für unser Verfahren zur effizienten und robusten Erkennung von kreisförmigen Objekten, zum Beispiel Verkehrszeichen, in Bildern haben wir ein Patent erhalten.

Erkennung von Verkehrszeichen in Baustellen

Im BMWi-Projekt AutoConstruct wurden Methoden zur Erkennung von Verkehrszeichen in Baustellen entwickelt. Baustellen sind noch immer eine Herausforderung für Fahrerassistenzsysteme. Mit Hilfe von Methoden des Deep Learning können Baustellenmarkierungen und Spurführungszeichen in Echtzeit in Kamerabildern erkannt werden. Dies bildet eine wichtige Grundlage für zukünftige Assistenzfunktionen und das hochautomatisierte Fahren in Baustellen.

Zustandsanalyse von Kanalnetzen

Im Rahmen des BMBF-Projekts Automatische Zustandsanalyse von Kanalnetzen (AUZUKA) haben wir gemeinsam mit Forschungs- und Anwendungspartnern ein System zur automatisierten Erfassung und Analyse von Schäden in städtischen Abwasserkanälen entwickelt. Die Oberflächen der Kanäle werden durch hochaufgelöste Kameras und 3D-Sensoren erfasst und modelliert. Neuronale Netzwerke wurden darauf trainiert, Schadensklassen wie Risse, Brüche oder Wurzeleinwuchs zu erkennen. Gemeinsam mit menschlichen Experten kann so schneller und zuverlässiger der Sanierungsbedarf ermittelt werden.