Sprachtechnologien »made in Germany« ermöglichen die Erschließung audiovisueller Inhalte sowie eine intuitive Interaktion für Business-to-Business-Anwendungen

Speech Technologies

Gesprochene Sprache ist eine der wichtigsten Arten der Kommunikation. Mit unserer auf dem deutschen Markt führenden Spracherkennungstechnologie können wir gesprochene Sprache erkennen, in Text umwandeln und so durchsuchbar machen. Auch in der Interaktion mit technischen Systemen ersetzt das gesprochene Wort mehr und mehr die Tastatur oder graphische Benutzeroberflächen. Hier kommen Sprachassistenzsysteme zum Einsatz, welche wir kundenspezifisch entwickeln.

Diese intuitive Interaktion mit Technik ist nicht nur im Alltag nützlich, sondern bietet Unternehmen auch großes Potenzial, Services zu optimieren und neue Dienstleistungen anzubieten. Zudem können unsere Lösungen das Auffinden von Informationen erleichtern. So ist es mithilfe von Audiomining möglich, anhand von Sprache und Stimme individuelle Sprecher zu erkennen und, beispielsweise in Medienarchiven, gezielt Audiobeiträge zu identifizieren.

Basierend auf unseren Sprachtechnologien entwickeln wir sprachgesteuerte Dialogsysteme, die Fragen beantworten und Geräte steuern können. Dabei sind alle Komponenten von uns entwickelt und auf individuelle Anforderungen anpassbar: von der Spracherkennung über die Einbindung von domänenspezifischem Wissen aus den unterschiedlichsten Fachbereichen bis zur Ausgabe in natürlicher gesprochener Sprache.

Durch die Kombination modernster Komponenten, insbesondere die Einbindung von Wissen via Wissensgraphen, adressieren diese Technologien die besonderen Herausforderungen an Business-to Business-Anwendungen. Mithilfe von Verfahren des Maschinellen Lernens können Sprachassistenz- und Dialogsysteme auf fach- und branchenspezifisches Wissen und Vokabular trainiert werden.

Darüber hinaus gewährleisten die von uns entwickelten Systeme die technologische Souveränität: Alle Komponenten wurden, zum Teil basierend auf Open-Source Komponenten, in Deutschland entwickelt. Sensible Daten können in sicheren Datenräumen gespeichert und verarbeitet werden. Beispielsweise in der Medizin setzen wir häufig auf lokale Installationen statt auf Cloud-Lösungen. Unsere Technologien sind insbesondere auf die deutsche Sprache und den Einsatz in Wirtschaft und Industrie zugeschnitten.

Leistungsportfolio

Unsere Lösungen zur Spracherkennung sind seit vielen Jahren erfolgreich bei unseren Kunden im Einsatz, insbesondere im Medienbereich. Wir bieten zudem individuell konfigurierbare Sprachassistenz- und Dialogsysteme, die insbesondere die Bedürfnisse von Unternehmen adressieren und in unterschiedlichen Branchen einsetzbar sind.

Automatische Sprach-erkennung

Unsere Spracherkennung erfolgt in Echtzeit mit hoher Genauigkeit, auch bei Dialekten. Transkribierte Aufnahmen können nach O-Tönen durchsucht werden. Wir passen unsere Lösungen an Kundenbedürfnisse an und integrieren Fachvokabular.

Sprachdialog- und Sprachassistenzsysteme

Wir entwickeln sprachgesteuerte Dialogsysteme für den Einsatz in Wirtschaft und Industrie, die semantisch strukturiertes Fach- und Faktenwissen aus verschiedenen Datenquellen einbeziehen.

Stimmbasierte
Diagnostik

Wir analysieren Stimm­eigenschaften zur Diagnose von Krankheiten – etwa zur Früherkennung von Krankheiten wie Parkinson oder um Stauungen in der Lunge zu erkennen.

Highlights

Erschließung der ARD-Archive mit Audiomining

In einer langfristigen Kooperation mit der ARD setzen wir die automatische Spracherkennung und weitere Audiotechnologien wie die Sprechererkennung sowohl im Archiv als auch im redaktionellen Bereich ein.

Hiermit ermöglichen wir es den Journalist*innen, sämtliche Sendungen des Archivs nach gesprochenen Wörtern zu durchsuchen, um relevante Beiträge wiederzufinden. Durch die Sprechererkennung können sogar Aussagen bestimmter Personen zielgerichtet gefunden werden. Die Generierung von Untertiteln oder die Transkribierung von Rohmaterial ergänzt die redaktionelle Unterstützung.

Live-Untertitelung im Sächsischen Landtag

Unser Spracherkenner wird unter anderem vom Sächsischen Landtag für die Live-Untertitelung von Videos zur Übertragung der Plenarsitzungen genutzt. Dafür haben wir das System auf viele Fachbegriffe aus Politik und Recht sowie die Namen von Politikern trainiert.

Ein Zusatzmodul übernimmt den Einbau von Satzzeichen und verleiht dem Textfluss Struktur. Für Anwendungen mit hohen Datenschutzanforderungen ist eine lokale Installation auf einer Standard-Server-Architektur möglich. Genauso sind aber auch cloudbasierte Spracherkennungsinstanzen realisierbar.

Sprachassistent als interaktiver Stadtführer

Gemeinsam mit der Volkswagen AG haben wir ein prototypisches Sprachdialogsystem entwickelt. Integriert im Auto dient das Dialogsystem dem Fahrer als interaktiver Stadtführer, der Fragen zu ausgewählten Sehenswürdigkeiten auf der Strecke beantwortet. Der Prototyp zeigt exemplarisch das Zusammenspiel unserer Sprachtechnologien – Spracherkennung, Inhaltsanalyse anhand von Wissensgraphen und Sprachsynthese – für Dialogsysteme mit domänenspezifischem Wissen.

SPEAKER-Projekt

Im vom BMWi geförderten SPEAKER-Projekt entwickeln die Fraunhofer-Institute IAIS sowie IIS eine Sprachassistenzplattform »Made in Germany«, bei denen die einzelnen Komponenten solcher Sprachassistenz- und Sprachdialogsysteme auf einfache Weise für individuelle Branchen und Kunden adaptiert werden können.

Hierbei wird insbesondere auf die Datensouveränität durch Einhaltung von Datenschutzstandards geachtet. Auf der Plattform können so kundenspezifische Assistenzsysteme modular aufgebaut und effizient realisiert werden.

Stimmdiagnostik

Wir nutzen Sprach- und Stimmanalyse, um Krankheiten zu diagnostizieren oder therapeutische Maßnahmen zu unterstützen. Im Rahmen eines EU-Projektes haben wir die i-PROGNOSIS-App zur Früherkennung von Parkinson entwickelt. Sie nutzt nicht nur Sprachdaten, sondern auch Timing- und Druckdaten, wenn der Benutzer die i-PROGNOSIS-Tastatur verwendet, Standortdaten, Gesichtsausdrucksdaten von Front-Kamera-Fotos und affektive Inhaltsdaten gespeicherter Textnachrichten.

Die App entspricht den aktuellen EU-Vorschriften zum Datenschutz.