In einem Forschungsprojekt, das mit der Stiftung »Haus der Geschichte« durchgeführt wird, entwickeln Wissenschaftler*innen der Abteilung NetMedia eine Technologie, die Emotionen in Zeitzeugeninterviews erkennt und kategorisiert. Mit Hilfe von Maschinellem Lernen werden Algorithmen zur Emotionserkennung trainiert, um perspektivisch Fachleuten und geschichtsinteressierten Menschen eine gezielte Suche nach Emotionen, z.B. zum Mauerfall, auf www.zeitzeugen-portal.de zu ermöglichen.
Multimodales Mining mit Sprach-, Bild- und Textanalyse
Hierfür werden computergestützt u. a. das gesprochene Wort und das entsprechende Transkript, Stimmlage, Sprechgeschwindigkeit und Mimik des Sprechers oder der Sprecherin analysiert. Die intelligente Videoanalyse nutzt dafür insbesondere Technologien der Spracherkennung, Bilderkennung und Texterkennung. Zunächst laufen diese Analyseprozesse getrennt ab, am Ende sollen sie jedoch miteinander kombiniert werden, denn nicht immer kann eine Emotion auf Basis von nur einer der genannten Modalitäten eindeutig von der KI erkannt werden.
Kombination der Daten mit Expertenwissen
Eine Herausforderung ist die geringe Datenmenge: Zum einen tauchen einige Emotionen relativ selten in den Berichten auf, zum anderen ist die Audio- und Aufnahmequalität vieler Videos nicht gut genug, um sie von einer KI vollautomatisiert transkribieren lassen zu können und damit Daten zu generieren. Um diese Klassifikationsaufgabe zu lösen, werden verschiedene KI-basierte Analyseverfahren mit dem Wissen der Historiker und Historikerinnen kombiniert. Zusätzlich werden in einem Zwischenschritt die Ergebnisse der KI mit einer Beurteilung der Videoszenen durch Menschen abgeglichen. Diese Resultate und die jeweiligen Schlussfolgerungen werden dann wiederum in den Lernprozess des Modells eingebracht, sodass dieses stetig verbessert wird, bis die KI zunehmend selbstständig und zutreffend eine Emotionserkennung vornehmen kann – auch bei später neu hinzukommenden Interviews.