Speech Technologies

Gesprochene Sprache ist eines der wichtigsten Mittel der Kommunikation. Als Marktführer in Deutschland erkennt unsere Spracherkennungstechnologie gesprochene Sprache in 99 Sprachen, wandelt sie in Text um und macht sie so durchsuchbar. Zunehmend ersetzt das gesprochene Wort die Verwendung einer Tastatur oder einer grafischen Benutzeroberfläche zur Interaktion mit technischen Systemen. Hier kommen die für unsere Kunden maßgeschneiderten Sprachassistenzsysteme ins Spiel.

Diese intuitive Interaktion mit der Technik ist nicht nur im Alltag nützlich, sondern bietet Unternehmen auch eine große Chance, bestehende Dienste zu optimieren und neue Services anzubieten. Unsere Lösungen erleichtern unseren Kunden auch das Auffinden der gesuchten Informationen. Mit Audio Mining ist es zum Beispiel möglich, einzelne Sprecher anhand von Sprache und Stimme zu erkennen und Audioinhalte in Medienarchiven systematisch zu identifizieren.

Mit unserer Sprachtechnologie entwickeln wir sprachgesteuerte Dialogsysteme, die in der Lage sind, Fragen zu beantworten und Geräte zu steuern. Alle dafür notwendigen Komponenten wurden von uns entwickelt und können auf die individuellen Anforderungen unserer Kunden zugeschnitten werden: Von der Spracherkennung über die Einbindung von domänenspezifischen Informationen aus verschiedenen Disziplinen bis hin zur Ausgabe der synthetisierten Sprache.

Diese Technologie kombiniert modernste Komponenten, einschließlich der Einbindung von Wissen über Wissensgraphen, um die spezifischen Herausforderungen von Business-to-Business-Anwendungen zu adressieren. Mit Hilfe von maschinellem Lernen können Sprachassistenz- und Dialogsysteme darauf trainiert werden, domänen- und branchenspezifisches Wissen und Terminologie zu erkennen.

Jedes von uns entwickelte System garantiert auch technische Souveränität: Jede einzelne Komponente wird in Deutschland entwickelt, teilweise unter Verwendung von Open-Source-Komponenten. Sensible Daten können in sicheren Datenräumen gespeichert und verarbeitet werden. Im medizinischen Bereich bevorzugen wir zum Beispiel oft lokale Installationen anstelle von Cloud-basierten Lösungen. Unsere Technologie ist speziell auf die deutsche Sprache und deren Einsatz in Industrie und Handel zugeschnitten.

Leistungsportfolio

Unsere Lösungen zur Spracherkennung sind seit vielen Jahren erfolgreich bei unseren Kunden im Einsatz, insbesondere im Medienbereich. Wir bieten zudem individuell konfigurierbare Sprachassistenz- und Dialogsysteme, die insbesondere die Bedürfnisse von Unternehmen adressieren und in unterschiedlichen Branchen einsetzbar sind.
 

Audio Mining

MIt dem Audio Mining System des Fraunhofer IAIS lassen sich audiovisuelle Medien gezielt nach Medieninformationen wie Begriffe, Zitate, Sprecher*innen durchsuchen und Medienbibliotheken besser verwalten.

 

Live Automatic Speech Recognition (ASR)

Mit der ASR-Technologie von Fraunhofer IAIS erleben Sie unsere Spracherkennungstechnologie in Echtzeit. Maximieren Sie Effizienz und inklusive Kommunikation mit höchster Genauigkeit für Ihre Transkriptionsbedürfnisse.

 

Generative KI

Nutzen Sie die Möglichkeiten, die Ihnen Generative Künstliche Intelligenz bietet. Wir unterstützen Sie mit 20+ Jahren KI-Erfahrung und einem umfassenden Angebot für Unternehmen. Starten Sie mit uns da, wo Sie gerade stehen.

99 Sprachen

Mit unserer innovativen Audio Mining können Sie Ihre Medien problemlos in 99 verschiedenen Sprachen transkribieren lassen und so Ihre internationale Reichweite erweitern.

Automatische Spracherkennung

Unsere Spracherkennung erfolgt in Echtzeit mit hoher Genauigkeit, auch bei Dialekten. Transkribierte Aufnahmen können nach O-Tönen durchsucht werden. Wir passen unsere Lösungen an Kundenbedürfnisse an und integrieren Fachvokabular.

Mining-Plattform

Mit unserer KI-basierten Mining-Plattform können Unternehmen Text-, Audio- und Videoinformationen vollautomatisch erschließen und wertvolle Metadaten generieren. Diese können z. B. dabei helfen, relevante Inhalte in Archiven schneller wiederzufinden.

Speech Technologies made by Fraunhofer IAIS

Individuelle Lösung

Wir schneiden unsere Sprachtechnologien speziell auf Ihre individuellen Anforderungen zu und können Sie so dabei unterstützen, Ihre unternehmensinternen Ziele zu erreichen. Hierbei können wir auf die Expertise des Fraunhofer-Netzwerks zurückgreifen.

Gerne stehen wir Ihnen auch bei der Implementierung und im Gebrauch zur Seite. Sprechen Sie uns gerne bei Fragen an.

Fraunhofer-Netzwerk

Ein starker Partner für Ihre zukünftige Entwicklung: Das Fraunhofer IAIS steht im Zentrum eines starken Forschungsnetzwerks und koordiniert u. a. als geschäftsführendes Institut die Fraunhofer-Allianz Big Data und Künstliche Intelligenz, welche die branchenübergreifende Expertise von über 30 Fraunhofer-Instituten in Big Data und Künstlicher Intelligenz bündelt.

 



Qualitätsgarantie

Am Fraunhofer IAIS entwickeln wir unsere Technologien ständig weiter, sodass Sie vom aktuellen State of the Art profitieren können.

Dabei verfolgen wir hohe Qualitätsansprüche: So hat Spracherkennung »made by Fraunhofer« für die deutsche Sprache die branchenweit höchste Erkennungsgüte.

Highlights

Allinga: Sprachassistenzlösungen für das professionelle Umfeld

In einem Team aus über 60 Expertinnen und Experten haben die Fraunhofer-Institute IIS und IAIS die Sprachassistenzlösung Allinga entwickelt. Allinga ermöglicht eine höhere Effizienz, barrierefreie Kommunikation, die Entlastung von Mitarbeitenden und vieles mehr.

Zwei Module, die Spracherkennung und Sprachsynthese »Allinga Voice«, sind bereits verfügbar und beweisen sich erfolgreich auf dem Markt. Weitere Komponenten befinden sich gerade in der Entwicklung.

Emotionserkennung durch Sprach-, Bild- und Textanalyse

In dem Forschungsprojekt »Multimodales Mining von Zeitzeugeninterviews zur Erschließung von audiovisuellem Kulturgut«, das mit der Stiftung »Haus der Geschichte« durchgeführt wird, entwickeln unsere Wissenschaftler*innen eine Technologie, die Emotionen in Zeitzeugeninterviews  erkennt und kategorisiert. Dafür werden Transkript, Stimmlage, Sprechgeschwindigkeit und Mimik der Zeitzeugen analysiert. Die intelligente Videoanalyse nutzt dafür insbesondere Technologien der Spracherkennung, Bilderkennung und Texterkennung. Perspektivisch soll somit eine gezielte Suche nach Emotionen, z.B. zum Mauerfall, auf www.zeitzeugen-portal.de  ermöglicht werden.

Erschließung der ARD-Archive mit Audio Mining

In einer langfristigen Kooperation mit der ARD setzen wir die automatische Spracherkennung und weitere Audiotechnologien wie die Sprechererkennung sowohl im Archiv als auch im redaktionellen Bereich ein.

Hiermit ermöglichen wir es den Journalist*innen, sämtliche Sendungen des Archivs nach gesprochenen Wörtern zu durchsuchen, um relevante Beiträge wiederzufinden. Durch die Sprechererkennung können sogar Aussagen bestimmter Personen zielgerichtet gefunden werden. Die Generierung von Untertiteln oder die Transkribierung von Rohmaterial ergänzt die redaktionelle Unterstützung.

Live-Untertitelung im Sächsischen Landtag

Unser Spracherkenner wird unter anderem vom Sächsischen Landtag für die Live-Untertitelung von Videos zur Übertragung der Plenarsitzungen genutzt. Dafür haben wir das System auf viele Fachbegriffe aus Politik und Recht sowie die Namen von Politikern trainiert.

Ein Zusatzmodul übernimmt den Einbau von Satzzeichen und verleiht dem Textfluss Struktur. Für Anwendungen mit hohen Datenschutzanforderungen ist eine lokale Installation auf einer Standard-Server-Architektur möglich. Genauso sind aber auch cloudbasierte Spracherkennungsinstanzen realisierbar.

SPEAKER-Projekt

Im vom BMWi geförderten SPEAKER-Projekt entwickeln die Fraunhofer-Institute IAIS sowie IIS eine Sprachassistenzplattform »Made in Germany«, bei denen die einzelnen Komponenten solcher Sprachassistenz- und Sprachdialogsysteme auf einfache Weise für individuelle Branchen und Kunden adaptiert werden können.

Hierbei wird insbesondere auf die Datensouveränität durch Einhaltung von Datenschutzstandards geachtet. Auf der Plattform können so kundenspezifische Assistenzsysteme modular aufgebaut und effizient realisiert werden.

Conversational AI

Am Standort des Fraunhofer IAIS in Dresden entwickeln wir intelligente Dialogsysteme auf Basis von »Question Answering«, die den schnellen und effizienten Zugriff auf Informationen über Sprach- oder Texteingaben ermöglichen. Das Ergebnis sind datenschutzkonforme Komplettlösungen für verschiedene Anwendungsbereiche, wie beispielsweise der Automobilbranche, der Medizin, der Produktion, der Finanzwirtschaft oder dem Tourismus, die auf die jeweiligen Bedürfnisse der Anwender*innen zugeschnitten sind.

Question-Answering

Frage-Antwort-Systeme verarbeiten gesprochene Fragen und beantworten diese in natürlicher Sprache. Um die richtigen Antworten zu finden, durchforsten die Systeme Informationen aus ganz unterschiedlichen Quellen. Unsere Expert*innen verwenden dafür innovative Konzepte und Technologien basierend auf »Linked Data«, »Deep Learning« und »Natural Language Processing«. Nutzer*innen brauchen somit keine komplizierten Suchanfragen zu stellen, sondern können sich ganz auf ihre eigentlichen Tätigkeiten konzentrieren. Die Systeme unterstützen beispielsweise Kundenberater in Telekommunikationsunternehmen oder dienen als Sprachassistenten im Auto.