Speech Technologies

Gesprochene Sprache ist eines der wichtigsten Mittel der Kommunikation. Als Marktführer in Deutschland erkennt unsere Spracherkennungstechnologie gesprochene Sprache, wandelt sie in Text um und macht sie so durchsuchbar. Zunehmend ersetzt das gesprochene Wort die Verwendung einer Tastatur oder einer grafischen Benutzeroberfläche zur Interaktion mit technischen Systemen. Hier kommen die für unsere Kunden maßgeschneiderten Sprachassistenzsysteme ins Spiel.

Diese intuitive Interaktion mit der Technik ist nicht nur im Alltag nützlich, sondern bietet Unternehmen auch eine große Chance, bestehende Dienste zu optimieren und neue Services anzubieten. Unsere Lösungen erleichtern unseren Kunden auch das Auffinden der gesuchten Informationen. Mit Audio Mining ist es zum Beispiel möglich, einzelne Sprecher anhand von Sprache und Stimme zu erkennen und Audioinhalte in Medienarchiven systematisch zu identifizieren.

Mit unserer Sprachtechnologie entwickeln wir sprachgesteuerte Dialogsysteme, die in der Lage sind, Fragen zu beantworten und Geräte zu steuern. Alle dafür notwendigen Komponenten wurden von uns entwickelt und können auf die individuellen Anforderungen unserer Kunden zugeschnitten werden: von der Spracherkennung über die Einbindung von domänenspezifischen Informationen aus verschiedenen Disziplinen bis hin zur Ausgabe der synthetisierten Sprache.

Diese Technologie kombiniert modernste Komponenten, einschließlich der Einbindung von Wissen über Wissensgraphen, um die spezifischen Herausforderungen von Business-to-Business-Anwendungen zu adressieren. Mit Hilfe von maschinellem Lernen können Sprachassistenz- und Dialogsysteme darauf trainiert werden, domänen- und branchenspezifisches Wissen und Terminologie zu erkennen.

Jedes von uns entwickelte System garantiert auch technische Souveränität: Jede einzelne Komponente wird in Deutschland entwickelt, teilweise unter Verwendung von Open-Source-Komponenten. Sensible Daten können in sicheren Datenräumen gespeichert und verarbeitet werden. Im medizinischen Bereich bevorzugen wir zum Beispiel oft lokale Installationen anstelle von Cloud-basierten Lösungen. Unsere Technologie ist speziell auf die deutsche Sprache und deren Einsatz in Industrie und Handel zugeschnitten.

Leistungsportfolio

Unsere Lösungen zur Spracherkennung sind seit vielen Jahren erfolgreich bei unseren Kunden im Einsatz, insbesondere im Medienbereich. Wir bieten zudem individuell konfigurierbare Sprachassistenz- und Dialogsysteme, die insbesondere die Bedürfnisse von Unternehmen adressieren und in unterschiedlichen Branchen einsetzbar sind.
 

Audio Mining

MIt dem Audio Mining System des Fraunhofer IAIS lassen sich audiovisuelle Medien gezielt nach Medieninformationen wie Begriffe, Zitate, Sprecher*innen durchsuchen und Medienbibliotheken besser verwalten.  

 

 

Conversational AI der nächsten Generation

Wir entwickeln datenschutzgerechte Komplettlösungen für unterschiedliche Branchen, zugeschnitten auf die Bedürfnisse der Anwender*innen.

 

Knowledge Graphs

Die Menge der in Unternehmen verfügbaren Daten wächst und wächst. Schneller Zugriff auf Informationen kann für Unternehmen zum entscheidenden Wettbewerbsvorteil werden.  

Stimmbasierte
Diagnostik

Wir analysieren Stimm­eigenschaften zur Diagnose von Krankheiten – etwa zur Früherkennung von Krankheiten wie Parkinson oder um Stauungen in der Lunge zu erkennen.

Automatische Spracherkennung

Unsere Spracherkennung erfolgt in Echtzeit mit hoher Genauigkeit, auch bei Dialekten. Transkribierte Aufnahmen können nach O-Tönen durchsucht werden. Wir passen unsere Lösungen an Kundenbedürfnisse an und integrieren Fachvokabular.

Mining-Plattform

Mit unserer KI-basierten Mining-Plattform können Unternehmen Text-, Audio- und Videoinformationen vollautomatisch erschließen und wertvolle Metadaten generieren. Diese können z. B. dabei helfen, relevante Inhalte in Archiven schneller wiederzufinden.

Highlights

Allinga: Sprachassistenzlösungen für das professionelle Umfeld

In einem Team aus über 60 Expertinnen und Experten haben die Fraunhofer-Institute IIS und IAIS die Sprachassistenzlösung Allinga entwickelt. Allinga ermöglicht eine höhere Effizienz, barrierefreie Kommunikation, die Entlastung von Mitarbeitenden und vieles mehr.

Zwei Module, die Spracherkennung und Sprachsynthese »Allinga Voice«, sind bereits verfügbar und beweisen sich erfolgreich auf dem Markt. Weitere Komponenten befinden sich gerade in der Entwicklung.

Emotionserkennung durch Sprach-, Bild- und Textanalyse

In dem Forschungsprojekt »Multimodales Mining von Zeitzeugeninterviews zur Erschließung von audiovisuellem Kulturgut«, das mit der Stiftung »Haus der Geschichte« durchgeführt wird, entwickeln unsere Wissenschaftler*innen eine Technologie, die Emotionen in Zeitzeugeninterviews  erkennt und kategorisiert. Dafür werden Transkript, Stimmlage, Sprechgeschwindigkeit und Mimik der Zeitzeugen analysiert. Die intelligente Videoanalyse nutzt dafür insbesondere Technologien der Spracherkennung, Bilderkennung und Texterkennung. Perspektivisch soll somit eine gezielte Suche nach Emotionen, z.B. zum Mauerfall, auf www.zeitzeugen-portal.de  ermöglicht werden.

Erschließung der ARD-Archive mit Audio Mining

In einer langfristigen Kooperation mit der ARD setzen wir die automatische Spracherkennung und weitere Audiotechnologien wie die Sprechererkennung sowohl im Archiv als auch im redaktionellen Bereich ein.

Hiermit ermöglichen wir es den Journalist*innen, sämtliche Sendungen des Archivs nach gesprochenen Wörtern zu durchsuchen, um relevante Beiträge wiederzufinden. Durch die Sprechererkennung können sogar Aussagen bestimmter Personen zielgerichtet gefunden werden. Die Generierung von Untertiteln oder die Transkribierung von Rohmaterial ergänzt die redaktionelle Unterstützung.

Live-Untertitelung im Sächsischen Landtag

Unser Spracherkenner wird unter anderem vom Sächsischen Landtag für die Live-Untertitelung von Videos zur Übertragung der Plenarsitzungen genutzt. Dafür haben wir das System auf viele Fachbegriffe aus Politik und Recht sowie die Namen von Politikern trainiert.

Ein Zusatzmodul übernimmt den Einbau von Satzzeichen und verleiht dem Textfluss Struktur. Für Anwendungen mit hohen Datenschutzanforderungen ist eine lokale Installation auf einer Standard-Server-Architektur möglich. Genauso sind aber auch cloudbasierte Spracherkennungsinstanzen realisierbar.

Sprachassistent als interaktiver Stadtführer

Gemeinsam mit der Volkswagen AG haben wir ein prototypisches Sprachdialogsystem entwickelt. Integriert im Auto dient das Dialogsystem dem Fahrer als interaktiver Stadtführer, der Fragen zu ausgewählten Sehenswürdigkeiten auf der Strecke beantwortet. Der Prototyp zeigt exemplarisch das Zusammenspiel unserer Sprachtechnologien – Spracherkennung, Inhaltsanalyse anhand von Wissensgraphen und Sprachsynthese – für Dialogsysteme mit domänenspezifischem Wissen.

SPEAKER-Projekt

Im vom BMWi geförderten SPEAKER-Projekt entwickeln die Fraunhofer-Institute IAIS sowie IIS eine Sprachassistenzplattform »Made in Germany«, bei denen die einzelnen Komponenten solcher Sprachassistenz- und Sprachdialogsysteme auf einfache Weise für individuelle Branchen und Kunden adaptiert werden können.

Hierbei wird insbesondere auf die Datensouveränität durch Einhaltung von Datenschutzstandards geachtet. Auf der Plattform können so kundenspezifische Assistenzsysteme modular aufgebaut und effizient realisiert werden.

Stimmdiagnostik

Wir nutzen Sprach- und Stimmanalyse, um Krankheiten zu diagnostizieren oder therapeutische Maßnahmen zu unterstützen. Im Rahmen eines EU-Projektes haben wir die i-PROGNOSIS-App zur Früherkennung von Parkinson entwickelt. Sie nutzt nicht nur Sprachdaten, sondern auch Timing- und Druckdaten, wenn der Benutzer die i-PROGNOSIS-Tastatur verwendet, Standortdaten, Gesichtsausdrucksdaten von Front-Kamera-Fotos und affektive Inhaltsdaten gespeicherter Textnachrichten.

Die App entspricht den aktuellen EU-Vorschriften zum Datenschutz.

Conversational AI

Am Standort des Fraunhofer IAIS in Dresden entwickeln wir intelligente Dialogsysteme auf Basis von »Question Answering«, die den schnellen und effizienten Zugriff auf Informationen über Sprach- oder Texteingaben ermöglichen. Das Ergebnis sind datenschutzkonforme Komplettlösungen für verschiedene Anwendungsbereiche, wie beispielsweise der Automobilbranche, der Medizin, der Produktion, der Finanzwirtschaft oder dem Tourismus, die auf die jeweiligen Bedürfnisse der Anwender*innen zugeschnitten sind.

Question-Answering

Frage-Antwort-Systeme verarbeiten gesprochene Fragen und beantworten diese in natürlicher Sprache. Um die richtigen Antworten zu finden, durchforsten die Systeme Informationen aus ganz unterschiedlichen Quellen. Unsere Expert*innen verwenden dafür innovative Konzepte und Technologien basierend auf »Linked Data«, »Deep Learning« und »Natural Language Processing«. Nutzer*innen brauchen somit keine komplizierten Suchanfragen zu stellen, sondern können sich ganz auf ihre eigentlichen Tätigkeiten konzentrieren. Die Systeme unterstützen beispielsweise Kundenberater in Telekommunikationsunternehmen oder dienen als Sprachassistenten im Auto.