Spracherkennung

Automatische Spracherkennung mit tiefen neuronalen Netzen

Obwohl das Sehen unser vornehmlicher Sinneskanal ist, teilen und bewahren wir Informationen bevorzugt mit Hilfe der Sprache. Ein wichtiger Bestandteil dieser Kommunikation besteht, auch historisch bedingt, in der geschriebenen Sprache. Zunehmend können aber Aufzeichnungen gesprochener Sprache in einem solchen Ausmaß gespeichert, geteilt und verbreitet werden, dass sie eine immer wichtigere Rolle spielen. In Form von Podcasts und Videos – professionell produziert oder als User Generated Content – überfluten sie das Netz mit gewaltigen Datenmengen.

Geschriebene Sprache kann von Computern relativ leicht in Massen verarbeitet werden und es werden immer bessere Algorithmen zu ihrer Analyse entwickelt. Beim Suchen oder beim Strukturieren, bei der Emotionserkennung oder der Beantwortung von Fragen, der Computer wird immer mehr zum Hilfsmittel im Umgang mit Texten (auch hierbei können tiefe neuronale Netze helfen). Gesprochene Sprache dagegen muss zunächst entschlüsselt werden, indem die Information aus den Geräuschen erkannt wird, bevor sie weiterverarbeitet werden kann. Dies leistet die automatische Spracherkennung, die zum Ziel hat, gesprochene Sprache automatisch in geschriebenen (vom Computer lesbaren) Text umzusetzen. Um mit ihrer Hilfe die Datenmassen des heutigen Internet zu bewältigen, muss eine Vielzahl an Herausforderungen bewältigt werden. Man trifft dort viele verschiedene Sprecher und Sprachen, Arten zu sprechen, Akzente und Dialekte, sowie Hintergrundgeräusche an. Es sind gerade diese Variabilitäten, die für viele Jahre eine Barriere darstellten, die durch die technische Entwicklung nicht zu durchbrechen schien.

Fortschritt mit Deep Learning

Tiefe neuronale Netze haben hier in den letzten Jahren einen Durchbruch ermöglicht, auf den viele in absehbarer Zeit nicht zu hoffen gewagt hatten. Mit ihnen wurde die Rate der falsch erkannten Wörter in natürlicher Sprache, wie sie in Dialogen vorkommt, um 30 Prozent gesenkt. Diese Verbesserung ist beim Lesen automatisch erkannter Texte und bei ihrer Analyse für Mensch und Maschine deutlich spürbar. Darüber hinaus können zunehmend komplexe Modellierungsaufgaben dadurch umgangen werden, dass aus sehr großen Datenmengen gelernt wird. Dies macht den Einsatz in Bereichen, in denen solche großen Datenmengen verfügbar sind, erheblich einfacher.

Das Fraunhofer IAIS hat eine auf Deep Learning basierende Technologie Audio Mining entwickelt, die bereits bei zahlreichen Medienunternehmen für die Spracherkennung in großen Multimediadatenbeständen erfolgreich im Einsatz ist.

Dennoch bringt die automatische Spracherkennung weitere Herausforderungen mit sich. Weiterhin stellen laute Geräusche im Auto, starke Dialekte und lebhafte Diskussionen die Spracherkennungsalgorithmen auf eine harte Probe. Deshalb erforschen Wissenschaftler am Fraunhofer IAIS, wie mit Hilfe von tiefen neuronalen Netzen auch die verbleibenden Herausforderungen gemeistert werden können. Sie haben dabei ein besonderes Augenmerk auf spezielle Anwendungsprobleme und helfen die neue Technik maßgeschneidert anzupassen und in den Einsatz zu bringen. Ob für die Spracherkennung für Medienbibliotheken oder den Feuerwehrfunk, für die Live-Untertitelung oder den Datenjournalismus – Fraunhofer IAIS ist der richtige Ansprechpartner.