Künstliche Intelligenz verrät Emotionen
Ziel des Projekts ist es, in den nächsten zwei Jahren einen Software-Prototypen zu entwickeln, um menschliche Emotionen in audiovisuellen Zeitzeugeninterviews erkennen zu können. Hierfür werden computergestützt u. a. das gesprochene Wort und das entsprechende Transkript, Stimmlage, Sprechgeschwindigkeit und Mimik des Sprechers analysiert. Die intelligente Videoanalyse nutzt dafür insbesondere Technologien der Spracherkennung, Bilderkennung und Texterkennung.
Zunächst laufen die Analyseprozesse getrennt ab, am Ende sollen die Verfahren jedoch miteinander kombiniert werden: Denn nicht immer kann eine Emotion auf Basis einer der genannten Modalitäten eindeutig von der KI erkannt werden. Eine Herausforderung für das Projektteam ist zum Beispiel das Erkennen von Zwischentönen, etwa wenn Sarkasmus die wahre Intention einer Aussage verschleiert. Hier muss das kommunikative Zusammenspiel von Mimik, Gestik und Tonalität berücksichtigt werden.
»KI soll uns helfen besser zu verstehen, welche Rolle Emotionen beim historischen Erinnern spielen«
Die KI wird mithilfe von maschinellen Lernverfahren (ML) auf künstlichen neuronalen Netzen trainiert. Dieses sogenannte Deep Learning eignet sich gut für die multimodale Sprach-, Text- und Bildverarbeitung. Entscheidend ist jedoch, dass ausreichend große Datenmengen für das Training zur Verfügung stehen. Das Projektteam steht hier vor einer weiteren Herausforderung: Zum einen tauchen einige Emotionen relativ selten in den Berichten auf, zum anderen ist die Audio- und Aufnahmequalität vieler Videos nicht gut genug, um sie von einer KI vollautomatisiert transkribieren lassen zu können und damit Daten zu generieren.
»Um diese schwierige Klassifikationsaufgabe zu lösen, werden verschiedene KI-basierte Analyseverfahren mit dem Wissen der Historiker und Historikerinnen kombiniert«, sagt Dr. Joachim Köhler, Abteilungsleiter NetMedia am Fraunhofer IAIS. Zusätzlich werden in einem Zwischenschritt die Ergebnisse der KI mit einer Beurteilung der Videoszenen durch Menschen abgeglichen. Diese Resultate und die jeweiligen Schlussfolgerungen werden dann wiederum in den Lernprozess des Modells eingebracht, sodass dieses stetig verbessert wird, bis die KI zunehmend selbstständig und zutreffend eine Emotionserkennung vornehmen kann – auch bei später neu hinzukommenden Interviews.
»In unserem Forschungsprojekt kommt Künstliche Intelligenz auf innovative und bisher einzigartige Weise im Museum und in der Geschichtswissenschaft zum Einsatz. Am Ende soll die KI uns dabei helfen besser zu verstehen, welche Rolle Emotionen beim historischen Erinnern spielen. Um die Erzählungen von Zeitzeuginnen und Zeitzeugen als historische Quellen bewerten und einordnen zu können, braucht es solche neuen Zugänge und Methoden. Denn es kommt nicht nur darauf an, was jemand erzählt, sondern vor allem, wie es erzählt wird«, sagt Dr. Ruth Rosenberger, Direktorin Digitale Dienste der Stiftung Haus der Geschichte.