Live Automatic Speech Recognition (ASR)

Spracherkennung in Echtzeit

Die ASR-Technologie von Fraunhofer IAIS ermöglicht die zuverlässige Umwandlung gesprochener Informationen in digitalen Text in Echtzeit, selbst unter schwierigen Bedingungen wie Hintergrundlärm oder regionalen Dialekten. Die automatische Spracherkennung in Echtzeit ermöglicht nicht nur eine natürliche Kommunikation zwischen Menschen und Maschinen, sondern bietet auch eine Alternative für Menschen mit Hörbehinderungen.

Die Software ist bereits im Einsatz und sorgt zum Beispiel in Parlamenten für die automatische Live-Untertitelung (Transkription) von Reden. In industriellen Umgebungen kann sie eingesetzt werden, um mittels Sprachbefehlen mit Maschinen zu kommunizieren. Sie bietet hohe Zuverlässigkeit in der Spracherkennung, hervorragende Leistung in Deutsch und Englisch, ist robust gegen Lärm, anpassbar für spezifische Anwendungen und Vokabular und verfügt über Wort- und Phonemausgabe für nachfolgende Systeme.

Kostenlosen Demozugang anfordern

Vorteile Fraunhofer Live ASR

On-premise vs. Cloud

Sie können die Live-Erkennung on-premise oder in einer Cloud-basierten Lösung nutzen.

Individuelle Anpassung der Live-Erkennung

Unsere Live-Erkennung kann auf Ihren individuellen Anwendungsfall spezialisiert werden. Beispiele hierfür sind die Verarbeitung dialektaler Sprache oder die Integration von fachspezifischem Vokabular. Dies wurde z.B. erfolgreich für den sächsischen Landtag umgesetzt.

Datensicherheit

Die Flexibilität bei der Auswahl der Server ermöglicht es Ihnen, die Datensicherheit an Ihre individuellen Bedürfnisse und Kostenstrukturen anzupassen.

Anwendungsbeispiel: Live-Untertitelung im Sächsischen Landtag

Unser Spracherkenner wird unter anderem vom Sächsischen Landtag für die Live-Untertitelung von Videos zur Übertragung der Plenarsitzungen genutzt. Dafür haben wir das System auf viele Fachbegriffe aus Politik und Recht sowie die Namen von Politikern trainiert.

Ein Zusatzmodul übernimmt den Einbau von Satzzeichen und verleiht dem Textfluss Struktur. Für Anwendungen mit hohen Datenschutzanforderungen ist eine lokale Installation auf einer Standard-Server-Architektur möglich. Genauso sind aber auch cloudbasierte Spracherkennungsinstanzen realisierbar.