Informed Machine Learning

Hohe Dateneffizienz und verbesserte Modell-Performance

Von außen betrachtet, können die Themen Künstliche Intelligenz (KI) und Maschinelles Lernen (ML) abstrakt wirken. Ein grundlegendes Verständnis, wie diese Technologie unser tägliches Leben beeinflussen und welche Chancen und Möglichkeiten durch sie entstehen, hat jedoch an Relevanz gewonnen. Inzwischen ist man sich nicht nur der Grenzen des Maschinellen Lernens (engl. Machine Learning) bewusst, wir forschen bereits an der Weiterentwicklung des Konzeptes ML, um die Schwächen zu beheben und neuen Chancen und Entwicklungen die Türe zu öffnen.

ML ist eine Methode der KI, die sich auf datenbasiertes Lernen durch Algorithmen und statistische Modelle konzentriert, um Muster zu entdecken und basierend darauf Vorhersagen und Entscheidungen zu treffen. Informed Machine Learning (IML) ist eine Weiterentwicklung des MLs. Dabei wird der ursprüngliche Vorgang des datenbasierten Lernens durch die Integration von bereits bestehendem, validem Wissen ergänzt. Ein Modell lernt nun nicht mehr rein auf Basis der Trainingsdaten, es verfügt zudem über thematisches Vorwissen, welches an unterschiedlichen Stellen der Modell-Entstehung eingebracht wurde.

Herausforderungen im Machine Learning: Warum es noch Verbesserungsbedarf gibt

Beim ML lernen KI-Modelle auf Grundlage von Trainingsdaten, um später den gewünschten Output zu generieren. Dabei hängt die spätere Qualität eines Modells besonders von der Qualität der zur Verfügung stehenden Trainingsdaten ab. Je hochwertiger die Daten, desto zuverlässiger das Modell. Dieser Umstand ist dem Prozess des ML geschuldet: Beim ML beginnt man mit einem Problem, welches man mittels KI lösen möchte. Man ermittelt Daten, die das Modell braucht, um eine Problemlösung zu erlernen. Mit diesen Daten wird anschließend das Modell trainiert, bis man zur Lösung gelangt. Abschließend erhält man ein KI-Modell, welches eigenständig Problemlösungen nach den erlernten Mustern generieren kann. Bei einer tiefergehenden Betrachtung dieses Konzeptes offenbaren sich Schwächen. Ein großes Problem stellen in der Regel die Trainingsdaten selbst dar. In vielen Branchen und Bereichen unseres Lebens ist es schwer qualitativ hochwertige und mengenmäßig ausreichende Daten zu erhalten. Das kann diverse Gründe haben; beispielsweise ist es sehr kostenintensiv, Geodaten durch Drohnenaufnahmen zu gewinnen, da dafür teures Equipment notwendig ist.

Weitere Beispiele sind Daten, die nur durch komplexe Experimente entstehen oder historische Daten, die nicht mehr verfügbar sind. Wenn es um die Arbeit mit vertraulichen Daten geht, die personenbezogene Informationen oder Unternehmensgeheimnisse enthalten, unterliegen diese in der Regel besonderen Auflagen und Bedingungen. Ein KI-Modell, dass auf ML basiert, steht und fällt mit seinen Daten. Durch sie lernt das Modell –man könnte sie auch als Wissensgrundlage eines Modells betrachten. Unzureichend vorliegende Daten haben negative Folgen auf die Genauigkeit eines Modells. Die Genauigkeit bezieht sich dabei auf die eigentliche Performance eines Modells. Wie akkurat werden die späteren Aufgaben erfüllt? Neben der Frage nach Dateneffizienz und Genauigkeit offenbaren sich Schwächen des ML auch bei Themen wie Wissenskonformität und Interpretierbarkeit.

Der Ansatz der Wissenskonformität bewegt sich thematisch in die Richtung einer vertrauenswürdigen KI. KI-Modelle können im Laufe ihres Trainings unterschiedliche Formen von Verzerrungen, auch Bias genannt, entwickeln. Ein Bias kann zum Beispiel durch die Vorauswahl der Trainingsdaten entstehen, durch die Programmierung des Algorithmus, oder durch Zweckentfremdung eines Modells auf Grund des Einsatzes in einem neuen Kontext. Modelle, die einer oder mehreren Formen eines Bias unterliegen, sind nicht mehr vertrauenswürdig, da sie verzerrte Ergebnisse generieren. Das Problem ist jedoch nicht nur die eigentliche Verzerrung an sich, sondern auch deren Detektion. KI-Modelle werden immer größer und komplexer, dass macht die Interpretation der Modelle stetig schwieriger. Es ist von außen immer weniger nachzuvollziehen, wie ein Modell zu welchem Ergebnis kommt.

Mit Wissen zum Erfolg: Der Lösungsansatz Informed ML

Die Forschung am Fraunhofer IAIS verfolgt unter anderem vier konkrete Ziele mit der Implementierung von Vorwissen in ML-Prozessen. IML kann eine bessere Dateneffizienz, eine erhöhte Modell-Performance, eine validere Wissenskonformität sowie ggf. eine erleichterte Interpretierbarkeit eines KI-Modells ermöglichen.

Welches Vorwissen zur Anwendung kommt, hängt von der späteren Lösungsaufgabe des jeweiligen Modells ab und muss individuell ausgewählt werden. Wichtig ist, dass das gewählte Wissen an sich die Anforderung der Validität erfüllt. Implementiert wird, was sich bereits lange bewährt hat und immer wieder unabhängig überprüft und in Frage gestellt wurde. Durch dieses Kriterium eignet sich besonders Wissen, welches naturwissenschaftlichen Gesetzmäßigkeiten folgt. Das können zum Beispiel algebraische und Differenzialgleichungen oder auch die Regeln der Logik sein. Ebenfalls eignen sich Simulationsergebnisse und Wissensgraphen. In dieser Form kann beispielsweise auch fachspezifisches und unternehmensabhängiges Vorwissen integriert werden.

Mögliche Einsatzbereiche des Informed Machine Learning

Physik

Medizin- und Umwelttechnologie, Informationstechnologie, Education, Forschung und Entwicklung
 

Astronomie

Luft- und Raumfahrttechnologie, Education, Forschung und Entwicklung

Biologie

Pharma- und Biotechnologieindustrie, Gesundheitswesen, Agrarwissenschaft und Umweltschutz
 

Geologie

Erdöl-, Bau-, Gas-, Bergbau-, Umwelt-, Geotechnikindustrie

Chemie

Pharma-, Lebensmittel- und Chemieindustrie, Materialforschung und -entwicklung, Umwelt- und Energieindustrie

Erfolgreiche Anwendungsbeispiele: Informed ML in der Praxis