Technologien und Lösungsansätze für Zuverlässige KI

Künstliche Intelligenz soll wichtige Aufgaben übernehmen, bei denen die zuverlässige Ausführung von großer Bedeutung ist, z. B. beim Autonomen Fahren. Doch wie kann man überprüfen und sicherstellen, dass eine KI zuverlässig arbeitet? Wie macht man diese Zuverlässigkeit für Nutzer*innen transparent und kann damit das Vertrauen in KI-Anwendungen stärken? Der Schlüssel für zuverlässig arbeitende KI-Modelle ist es, die Funktionsweisen hinter den Verfahren des Machinellen Lernens nachvollziehen zu können. Auf dieser Seite stellen wir unsere Technologien und Lösungsansätze vor, die wir in verschiedenen Projekten mit unseren Industriekunden und Forschungspartnern entwickelt und erprobt haben.

Sie sind an unseren Lösungen interessiert und möchten mit uns zusammenarbeiten? Kontaktieren Sie uns gerne, wir beraten Sie unverbindlich!

 

Beratungstermin vereinbaren  

 

ScrutinAI: Das Vorgehen der KI sichtbar machen

Visual Analytics

© Fraunhofer IAIS
ScrutinAI kann alle KI-Modelle analysieren, die Bild- oder Videodaten verarbeiten, wie z. B. beim Autonomen Fahren
© Fraunhofer IAIS
Das umfangreiche Toolset ScutinAI ermöglicht es, Fehler in KI-Modellen oder Trainingsdaten zu finden und auszuwerten.

Jedes Machine-Learning-Modell macht Fehler. Es ist daher wichtig, dass der Mensch diese findet, versteht und behebt. Hierbei hilft unser Visual-Analytics-Framework »ScrutinAI«.

Die Güte und Qualität einer KI-Anwendung wird üblicherweise automatisch ausgewertet und in gemittelten Qualitätskennzahlen angegeben. Für KI-Modelle mit besonders wichtigen Aufgaben, z. B. in sicherheitskritischen Anwendungen oder wenn folgenschwere Entscheidungen getroffen werden (z. B. automatisierte Kreditvergabe), gelten strengere Anforderungen: Hier muss garantiert sein, dass Fehler nicht systematisch, d.h. nicht vermehrt in ähnlichen Situationen, auftreten. Die Bewertung, ob Situationen vergleichbar sind, kann nur mit Expertenwissen, teilweise auch nur mit menschlicher Intuition, geschehen.

Das Feld Visual Analytics beschäftigt sich mit Prozessen und Methoden, dem Menschen die Durchsicht und Analyse der nötigen Informationen möglichst leicht zu machen. Unser Tool ScrutinAI (von Engl. scrutinize = prüfend ansehen, untersuchen) schafft hierzu eine zugängliche Schnittstelle und fasst diese Funktionalität in einem mächtigen Framework zusammen.
ScrutinAI kann dadurch die Vertrauenswürdigkeit eines KI-Modells verbessern.

 

  • Was ist Visual Analytics – und warum ist es für eine zuverlässige KI wichtig?

    Mit Visual Analytics können Expert*innen KI-Modelle möglichst effizient semantisch analysieren.

    Durch Domänenwissen und z. T. auch Intuition ist der Mensch in der Lage, Muster in Daten zu entdecken und eine kontextabhängige Bedeutung abzuleiten. Visual Analytics unterstützt den Menschen dabei, indem die üblicherweise große Menge an Daten, Metriken, Methoden, Features und KPIs in eine für Menschen erfassbare Form gebracht werden. Hierzu werden aggregierte Darstellungen geliefert, die mithilfe des menschlichen Sehvermögens eine hocheffiziente Analyse ermöglichen und die verschiedenen Qualitätsmaße, Datencharakteristika und Metadaten übersichtlich aufzeigen können.  

    Die Einsatzmöglichkeiten von Visual Analytics sind vielfältig und betreffen nahezu den gesamten KI-Lebenszyklus, wie z. B. das Auffinden von Datenfehlern (u. a. unterrepräsentierte Situationen) und Label- und Modellfehlern (u. a. systematische Falschvorhersagen). Durch menschliche Nutzer*innen identifizierte Schwachstellen eines KI-Systems können nach eingehender Analyse durch Korrekturen in jedem dieser Schritte (Datenakquise, Labeling, Modellentwicklung und Training) erkannt, vermindert und behoben werden.

  • Blick in die KI-Technologie: Vorteile von ScrutinAI

    Die Konzepte der Visual Analytics in einem umfangreichen und erweiterbaren Toolset: Unser Framework ScrutinAI ermöglicht es geschultem Personal, Fehler in Modellen oder Trainingsdaten zu finden und auszuwerten.

    Die Erkenntnisse durch die Analyse mit ScrutinAI können sowohl als quantitativer als auch qualitativer Beleg im Sinne einer evidenzbasierten Argumentation für Qualitätsanforderungen von KI-Anwendungen herangezogen werden.

     KI-Expert*innen können mithilfe von ScrutinAI:

    • ihre Zeit möglichst effizient einsetzen
    • Intuition und Fachwissen effektiv einbringen
    • semantische Hypothesen analysieren und die daraus gewonnenen Einsichten zur Behebung oder Verminderung von Schwachstellen einsetzen
    • flexibel eigene Methoden, Metriken und Mechanismen integrieren und kombinieren und so eine umfassende Analyse durchführen
    • die gefundenen Evidenzen in einer systematisierten Argumentation (z. B. Sicherheitsargumentation im Rahmen der SOTIF – Safety of the Intended Functionality) einsetzen
  • Blick in die KI-Technologie: Funktionsweise von ScrutinAI

    Mithilfe von ScrutinAI lassen sich interaktive und schrittweise detailliertere Untersuchungen, sog. »Deep-Dive-Analysen«, durchführen. Das Framework gibt dabei keinen starren Analyse-Workflow vor und bewahrt den menschlichen Anwender*innen Flexibilität.

    Einzelne Komponenten von ScrutinAI lassen sich flexibel kombinieren und durch eigene Methoden, Metriken und Mechanismen ergänzen. So erlauben z. B. die Hinzunahme und das Ausblenden einzelner Repräsentationen (zoom in, zoom out) auf der Programmoberfläche zwischen einer Übersicht und detaillierten Analysen zu wechseln.

    Neben der Möglichkeit, Datensequenzen in Drop-Down-Menüs (rechte Abbildung, Bereich A) auszuwählen oder Datencluster interaktiv in Plots zu markieren (D-G), können auch textuelle Queries (B) über die Daten formuliert werden. Eine Tabellenansicht (C) bietet eine breite Übersicht über die vorhandenen Metadaten, während verschiedene einzelne KPIs modular und interaktiv als Plots hinzugefügt werden können. Damit verknüpfte Bildrepräsentationen (H-J) ermöglichen ein Vergleichen der zugehörigen Modelleingaben, Ground-Truth-Daten sowie Modellvorhersagen, die wahlweise gegenübergestellt oder transparent übereinandergelegt werden können. Die Oberfläche mit vielen interaktiven Modulen (Slider, Drop-Down-Menüs, Check-Boxen und Ähnlichem) lässt sich intuitiv bedienen.

    © Fraunhofer IAIS
  • Mögliche Anwendungsfelder: Bildanalyse und Interpretationen

    ScrutinAI lässt sich in vielen Bereichen einsetzen und auf verschiedene Anwendungsszenarien anpassen. Es eignet sich insbesondere für alle KI-Modelle, die Bild- oder Videodaten verarbeiten. Beispielhafte Anwendungsbereiche sind:

     

    Autonome Robotik (bspw. autonome Fahrzeuge oder Roboter)

    Mit Kameras und vergleichbaren Sensoren (wie z. B. Lidar, Radar, Ultraschall) ausgestattet, werden die KI-Modelle trainiert, um die Umgebung zu erkennen. Dies reicht von der Erkennung einzelner Objekte (z. B. Verkehrszeichen) bis hin zum Verständnis komplexer Situationen.

    Mit einer Analyse mittels ScrutinAI werden Schwachstellen z. B. in der Objekterkennung aufgedeckt und während der Design-Phase mitigiert. Beispielsweise wurde ScrutinAI bereits für die Sicherheitsargumentation im Rahmen des SOTIF (Safety of the Intended Functionality) von KI-Modellen im autonomen Fahren erfolgreich eingesetzt.

    Bildgebende Medizin und Healthcare Analytics

    Bei der Diagnose von Krankheiten kommen Röntgen-, Ultraschall-, MRT-Bilder oder Ähnliches zum Einsatz, die von KI-Modellen (DNN-Modellen) zusätzlich analysiert werden, um das medizinische Personal zu unterstützen.

    Die korrekte Funktionsweise eines Modells sollte dabei umfassend unter Einbezug des Expertenwissens des ärztlichen Personals geschehen. Das Verständnis der Funktionsweise bzw. die Analyse eines Modells mittels ScrutinAI tragen zum Vertrauen des ärztlichen Personals in das Modell und dessen Vorhersagen bei.

    Weitere mögliche Anwendungsfelder:

    • Agrarsektor
    • Umweltsektor
    • öffentlicher Sektor
    • Industrie/Industrie 4.0
    • Smart Home sowie Internet of Things (IoT)

    Neben Bilddaten bieten sich zudem solche Daten an, die mit interpretierbaren Features versehen werden können. Durch Anpassungen ist demnach auch eine Anwendung in den Bereichen der Text- oder Spracherkennung, Natural Language Understanding oder Zeitreihenanalyse denkbar.

CARLA-Simulator: KI-Sicherheit für das Autonome Fahren

Simulation-Based Testing

© Fraunhofer IAIS
Der CARLA-Simulator unterstützt bei der Prüfung und Entwicklung von sicherheitskritischen Computer-Vision-Systemen, wie z. B. für das Autonome Fahren.
© Fraunhofer IAIS
Mittels Simulation-Based Testing und einem semantischen Konzept erzeugt CARLA fiktive Fahrsituationen, die für den Menschen verständlich und somit prüfbar sind.
© Fraunhofer IAIS
Mit CARLA können semantische Dimensionen wie die Kleidungsfarbe von Fußgängern einzeln betrachtet werden, um sicherzustellen, dass sie im KI-Modell nicht unterrepräsentiert sind.

Ohne umfassende Tests dürfen KI-Modelle nicht in sicherheitskritischen Anwendungen, wie z. B. beim Autonomen Fahren, genutzt werden. Mit unserem CARLA-Simulator lassen sich KI-Komponenten mit simulierten Daten gründlich prüfen.

Obwohl Techniken des Maschinellen Lernens (ML) bei komplexen Aufgaben häufig menschenvergleichbare Leistungen erreichen, bilden sie stets einen Durchschnitt aus vielen guten, aber auch wenigen potenziell kritischen oder falschen Vorhersagen. Insbesondere bei sicherheitskritischen Anwendungen, wie z. B. der Erkennung von Verkehrsteilnehmer*innen beim Autonomen Fahren, reicht das nicht aus: Hier müssen KI-Modelle ihre Aufgabe in jedem Fall garantiert und nachweisbar korrekt erfüllen.

Wir widmen uns dieser Herausforderung über sog. Simulation-Based Testing mit unserem CARLA-Simulator. Dieses Tool basiert auf einem semantischen Konzept und erzeugt Fahrsituationen, die für den Menschen verständlich und somit prüfbar sind. Durch die Erstellung synthetischer Trainings- und Testdaten lassen sich systematische Schwächen von KI-Komponenten automatisch identifizieren. Indem nur Simulationsdaten genutzt werden, lässt sich zudem das Problem von Lücken zwischen Simulation und realem Bereich vermeiden.  

Unser Angebot:

  • Wir unterstützen Sie bei Entwurf und Umsetzung automatisierter Tests für Ihr Zielszenario im automatisierten Fahren
  • Wir stehen Ihnen mit unserer Erfahrung zur gezielten und effizienten Nutzung des CARLA-Simulators zur Seite
  • Wir erweitern CARLA gezielt und mit Blick auf die angestrebten Testszenarien um die von Ihnen gewünschte Funktionalitäten

UNverbindlichen BeratungsTermin Anfragen 

 

  • © Fraunhofer IAIS

    CARLA verknüpft Simulation-Based Testing mit einem semantischen Konzept, um das Verhalten von KI-Elementen für Menschen verständlich aufzubereiten und somit prüfbar zu machen. Wie funktioniert das im Detail?

    In KI-Anwendungen können verschiedene Methoden des Maschinellen Lernens zum Einsatz kommen, wie z. B. tiefe neurale Netze (Deep Neural Networks, kurz: DNNs). Üblicherweise werden diese auf Real-Welt-Daten trainiert und mit einem Prüfdatensatz (Hold-Out) bewertet, woraufhin die mittlere Performanz (Mean Intersection over Union, kurz: IoU) angegeben wird. Auch wenn das Modell audiovisuelle Daten wie z. B. Videos auswertet, wird daraus ein Durchschnitt berechnet. Für den Einsatz in sicherheitskritischen Anwendungen wie dem Autonomen Fahren ist diese Bewertung höchst unzureichend.

    Das semantische Konzept mit CARLA geht anders vor: Anstatt die mittlere Performanz als Solches zu betrachten, wird die mittlere Performanz gesondert pro Bild berechnet und ein spezifischer Aspekt beurteilt, wie z. B. die Helligkeit des Bildes. Semantisches Testen erlaubt es hier, Situationen mit unterschiedlichen, teils höchst seltenen Helligkeiten (z. B. aufgrund von stark reflektierenden Oberflächen) von einer ansonsten unveränderten Verkehrsszene zu erzeugen. Der Helligkeitskontrast dient hierbei als Erkennungsmerkmal, daher liefern Bilder, die z. B. tagsüber mit ausreichender Helligkeit aufgenommen wurden, einen besseren Wert als Bilder, die z. B. nachts aufgenommen wurden. Wird eine solche Korrelation von Helligkeit und Detektionsgüte erkannt, kann untersucht werden, ob sich das neuronale Netz durch zusätzliche Trainingsdaten mit geringerer Helligkeit verbessern ließe.

    Auf die gleiche Weise kann auch die Kleidungsfarbe der Fußgänger als semantische Dimension betrachtet werden. Bei ausgefallener Kleidung besteht die Gefahr einer Unterrepräsentation im Trainingsdatensatz, sodass eine geringere Detektionsgüte wahrscheinlich ist. Wenn bestimmte Farbtöne eine signifikant höhere mittlere Performanz haben als andere, ist das eine systematische Schwäche im neuronalen Netz, die behoben werden muss.

    Unser Tool CARLA simuliert Verkehrsszenen und das Verhalten von Verkehrsteilnehmer*innen und erzeugt dafür die entsprechenden semantischen Metadaten, die aus realen Situationen nur sehr aufwendig verfügbar gemacht werden können. Wie das Beispiel oben zeigt, lassen sich mit CARLA gezielt Schwächen in KI-Komponenten identifizieren, die sich mit einem Nachtrainieren des Modells beheben lassen können.

Whitebox statt Blackbox: Transparenz herstellen und Schwachstellen finden

Interpretierbare Whitebox-Zwillingsmodelle und regelbasierte Schwachstellenanalyse

© A2D2 / CC BY-ND 4.0
Blackbox-Modelle im Autonomen Fahren können z. B. Mülltonnen als Präsenz von Autos in Bildbereichen interpretieren, wo eigentlich keine Autos sind.
© A2D2/ CC BY-ND 4.0
Mit dem Whitebox-Zwilling können wir z. B. im Autonomen Fahren Bildbereiche markieren, die ein Blackbox-Modell zuvor falsch als Zielobjekt (z. B. Auto) interpretiert hat.

Mit Whitebox-Zwillingen und der regelbasierten Schwachstellenanalyse machen wir Blackbox-Modelle und ihre Entscheidungen transparent, nachvollziehbar und beheben potenzielle Schwachstellen.

In der Künstlichen Intelligenz lassen sich insbesondere mit Methoden des Maschinellen Lernens mit tiefen neuronalen Netzen (Deep Learning) gute Ergebnisse erzielen. Diese Modelle sind jedoch meist nicht transparent und interpretierbar und werden daher als sog. »Blackbox-Modelle« bezeichnet. Um in sicherheitskritischen Situationen nicht auf die Leistung von Blackbox-Modellen verzichten zu müssen und ihre Funktionsweise dennoch transparent nachvollziehen zu können, arbeiten wir mit sog. »Whitebox-Zwillingen«.

Unser Ansatz hilft zudem, potenzielle Schwachstellen (in Form von sogenannten Shortcuts) in neuronalen Netzen bereits früh im KI-Entwicklungsprozess zu entdecken oder bestehende Anwendungen und ihre Entscheidungen zu überprüfen. So können mögliche Sicherheitsrisiken frühzeitig aufgedeckt werden. 

Für die technische Qualitätssicherung von Blackbox-Modellen sowie Trainings- und Testdaten ist es zudem unerlässlich, den Raum aller möglichen Eingaben gezielt nach problematischen Stellen (z. B. Fehlerbedingungen) durchsuchen zu können – manuell ist das jedoch nicht schaffbar. Eine »regelbasierte Schwachstellenanalyse« kann hier Abhilfe schaffen.

  • © Fraunhofer IAIS

    Mit Whitebox-Zwillingsmodellen können wir sogenannte Shortcuts bei Blackbox-Modellen identifizieren und somit potenziellen Sicherheitsrisiken entgegenwirken.

    In neuen Situationen erweisen Blackbox-Modelle manchmal eine schlechtere Performanz, weil sie zum Teil schlecht generalisieren. Das liegt u. a. an gelernten Shortcuts. Dies sind zufällig in den Daten enthaltene Korrelationen ohne kausale Zusammenhänge, die das neuronale Netz ausnutzt, um zu seiner Entscheidung zu gelangen. So wurde z. B. schon beobachtet, dass KI-Modelle bei der Analyse von Röntgenbildern eher gerätespezifische Merkmale wie Beschriftungen und Symbole ausgewertet haben als das abgebildete Gewebe. Ein anderes Beispiel wäre im Autonomen Fahren die Interpretation von Bürgersteigkanten und Mülltonnen als Hinweise für die Präsenz von Autos. Dies wäre eine semantische Schwachstelle, die ein potenzielles Sicherheitsrisiko darstellen würde, da das KI-Modell als Folge eine Notbremsung auslösen könnte.

    Unser Ansatz ermöglicht das automatisierte und systematische Auffinden solcher gelernten Shortcuts und somit das Prüfen und Plausibilisieren von Entscheidungen eines Blackbox-Modells.   

     

    Unsere Methode

    Unser interpretierbarer Whitebox-Zwilling versucht für gegebene Eingaben möglichst ähnliche Ausgaben zu denen des Blackbox-Modells zu erzeugen. Dabei müssen uns Blackbox-Modell samt Trainingsdatensatz vorliegen. Die Analyse auf gelernte Shortcuts erfolgt dann in drei Schritten:

    1. Das interpretierbare Zwillingsmodell wird für die gleiche Klassifikationsaufgabe trainiert wie das Blackbox-Modell
    2. Kandidaten für Shortcuts werden automatisiert mithilfe des Zwilllingsmodells identifiziert (Hypothesen-Bildung)
    3. Die Hypothesen werden systematisch auf dem Blackbox-Modell überprüft, indem Eingaben, die für das Zwillingsmodell als problematisch erkannt wurden, auch dem Blackbox-Modell präsentiert werden. Führt dies bei dem Blackbox-Modell ebenfalls signifikant häufig zu falschen Aussagen, so wurde ein Blackbox-Shortcut identifiziert.

    Im Anschluss können rechtzeitig Mitigationsschritte eingeleitet werden, z. B. ein Training auf mit Shortcuts augmentierten Daten (ähnlich zum sogenannten Adversarial Training) oder die Berechnung sogenannter Shortcut Exploitation Scores.

    Mehr Infos siehe: Julia Rosenzweig, Joachim Sicking, Sebastian Houben, Michael Mock, Maram Akila; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2021, pp. 56-65 (https://openaccess.thecvf.com/content/CVPR2021W/SAIAD/html/Rosenzweig_Patch_Shortcuts_Interpretable_Proxy_Models_Efficiently_Find_Black-Box_Vulnerabilities_CVPRW_2021_paper.html)  

  • Eine regelbasierte Schwachstellenanalyse, die auf der sog. »Subgruppensuche« basiert, ermöglicht eine automatisierte, systematische und effiziente Suche nach problematischen Eingaben.

    Voraussetzung ist, dass aussagekräftige Metadaten verfügbar sind, d. h. strukturierte Informationen über Merkmale der Eingangsdaten. Gefundene Problembedingungen sind als Konjunktionen von Merkmalsbedingungen gegeben, wie z. B. »Akzent = Friesisch & Geschlecht = männlich«, statistisch relevant und ebenso wie die Bedeutung der zugehörigen Regeln gut für Menschen interpretierbar, z. B.: »Das Modell hat Schwächen bei der Übersetzung von Aufnahmen männlicher Sprecher mit friesischem Akzent«.

    Basierend auf diesen Regeln können Prüfer*innen gezielt Ansätze für Modellverbesserungen oder Anpassungen der Trainingsdaten identifizieren. So könnte ein Trainingsdatensatz für ein Übersetzungsmodell mit Beispielaufnahmen von Sprecher*innen angereichert werden, bei denen die automatische Suche Schwächen offenbart hat.

    Mögliche Anwendungen:

     

    Ergebnisse einer beispielhaften Subgruppensuche zur Erkennung von Fußgänger*innen.
    Visuelle Stichprobe zur Validierung der Subgruppensuche.

    Semantische Segmentierung – z. B. beim Autonomen Fahren:

    Ein Automobilhersteller entwickelt eine Anwendung zur automatischen Klassifizierung von Verkehrssituationen mittels Kamerabildern. Als ein Teilsystem davon ordnet ein Neuronales Netz den Bildausschnitten verschiedene Klassen zu, wie z. B. Fußgänger*in, Fahrbahn, Auto. Relevante Metadaten sind als Label des Trainingsdatensatzes verfügbar, z. B. die Größe und Position (in Pixeln) von Fußgänger*innen-Umrahmungen zusammen mit der Erkennungsgüte (IoU = Intersection over Union) des Netzes.

    Eine Subgruppensuche (siehe Bild 1) zeigt, dass das Netz Fußgänger*innen mit deutlich erhöhter Wahrscheinlichkeit übersieht (IoU = 0), wenn

    1. die Umrahmungsgröße eine bestimmte Schwelle unterschreitet (height < 8 & width < 12).
    2. die vertikale Position der Umrahmung oberhalb der Bildmitte liegt (ycoord > 644).

    Diese Regeln lassen sich einfach interpretieren und validieren – z. B. per visueller Stichprobe (siehe Bild 2).

     

     

    Klassifizierung von Elementen auf Webseiten

    Zur systematischen Suchmaschinenoptimierung (SEO) soll ermittelt werden, ob und welche Merkmale von Webseitenelementen (z. B. Such-Buttons) einen Einfluss auf die Platzierung einer Seite in der Ergebnisliste einer Websuche haben. Dazu ist in einem ersten Schritt ein Blackbox-Modell darauf trainiert worden, bestimmte Webseitenelemente wie Such-Buttons oder Eingabemasken anhand von Screenshots zu erkennen. Metadaten lassen sich automatisiert und mittels etablierter Werkzeuge wie z. B. regulären Ausdrücken direkt aus dem Seitenquelltext extrahieren, der in maschinenlesbaren Sprachen wie HTML oder CSS vorliegt. Auch eine Erzeugung aus den Screenshots per Bildverarbeitung ist möglich.

    Eine Subgruppensuche könnte hier z. B. ergeben, dass Such-Buttons nicht erkannt werden, wenn

    1. Kontrast < Schwellwert & Umriss = Rechteck & Symbol = Auge

    Sollte es z. B. der Fall sein, dass eine ansonsten gleiche Seite bei fehlendem oder ungewöhnlich platziertem Such-Button von Suchmaschinen mit einem schlechteren Ranking versehen wird, so wäre dieser Sachverhalt unter Umständen nur schwer vom KI-Modell zu lernen, wenn dieses selbst die Such-Buttons nur unzureichend erkennt.

    © Scanrail - stock.adobe.com
    © Ulf - stock.adobe.com

    Inhaltsanalyse von Texten in Dokumentendatenbanken

    Als Vorstufe einer automatisierten Inhaltsanalyse aktueller Branchennachrichten sollen gezielt satirische Textinhalte ausgefiltert werden. Dazu klassifiziert ein Modell den Inhalt eines Dokumentendatenspeichers, der gelabelte Texte enthält (z. B. Zeitungsartikel). Metadaten sind in Form strukturierter Daten bereits integriert und können durch maschinell oder manuell generierte Attribute erweitert werden. So könnte z. B. klar sein, dass es sich bei Artikeln einer bestimmten Reihe oder von bestimmten Publikationen immer um Satire handelt und eine entsprechende Metadatenspalte erzeugt werden.

    Eine Subgruppensuche könnte z. B. ergeben, dass satirische Texte nicht korrekt klassifiziert werden, wenn

    1. Ressort = Politik & Region = Südostasien.
    2. Länge < 1000 Zeichen & Anteil IT-Fachbegriffe > 15%.

    In diesem Fall könnte man zur Verbesserung des Modells z. B. versuchen, den Trainingsdatensatz für den Satirefilter speziell mit Beispielen aus dem IT-Umfeld anzureichern.

  • Mögliche Anwendungsfelder

     

    Autonomes Fahren

    Beim Autonomen Fahren wird u. a. analysiert, ob ein Bild ein Auto enthält oder nicht (binäre Bildklassifikation). Das Ziel der Analyse mit dem Whitebox-Zwilling ist herauszufinden, ob die Erkennung von Autos auf dem erlernten Konzept von Autos beruht oder durch Korrelationen mit anderen, semantisch nicht verbundenen Objekten wie Ampeln, Mülltonnen oder Bordsteinen basiert.

    Medizinische Bildverarbeitung

    Bei der medizinischen Bildverarbeitung wird anhand von bildgebenden Verfahren automatisiert auf das Vorliegen einer Krankheit geschlossen. Ziel der Analyse mit dem Whitebox-Zwilling ist hier herauszufinden, ob die Erkennung auf der Analyse des zu betrachtenden Gewebes beruht oder auch semantisch nicht verbundene Objekte wie z. B. Namen von Geräten einbezogen werden.

    Industrie 4.0

    Im Rahmen von Industrie 4.0 bietet die Bildverarbeitung ebenfalls vielfältige Einsatzmöglichkeiten, u. a. bei der Detektion von Produktionsfehlern oder Verschleiß anhand von Kameraaufnahmen. Eine Berücksichtigung des zeitlichen Verlaufs bei der Analyse von Videos ist ebenso möglich.

    Text- und Audiodaten

    Durch Anpassung des interpretierbaren Zwillingsmodells weiten wir aktuell unseren Ansatz auf Text- oder Audiodaten aus. Damit können wir ihn künftig auch z. B. im Bereich der Themenklassifikation (»Um welches Thema geht es in dem Text?«) und der Sentiment-Analyse (»Liegt ein positives oder negatives Review vor?«) oder bei Klassifikation von Audio-Dateien (»Welches Genre hat das Audio-File?«, »Wer spricht gerade?«) nutzen.

Unsicherheitsschätzung: Wissen, wie viel man nicht weiß

Insbesondere in sicherheitskritischen Anwendungen sollen KI-Modelle zuverlässig arbeiten. Daher ist es wichtig, Unsicherheiten in der Modellvorhersage schätzen und bewerten zu können.

Auch wenn Machine-Learning-Modelle wie tiefe neuronale Netze Ergebnisse erzielen, die mit dem menschlichen Niveau vergleichbar sind, machen sie Fehler. Manchmal sind diese sogar unvermeidlich, z. B. wenn die gegebenen Daten keine perfekte Vorhersage zulassen. In vielen Fällen sind derartige Fehler unkritisch, vor allem, wenn diese leicht erkannt werden können und sich der Vorgang beliebig wiederholen lässt, z. B. bei der Sprachsteuerung. Demgegenüber existieren kritische Anwendungsfälle, bei denen diese Voraussetzungen nicht oder nur bedingt gegeben sind. Hier können fehlerhafte Vorhersagen der KI-Anwendung zu Personenschäden oder finanziellen Verlusten (bspw. Sachschäden, aber auch Opportunitätskosten) führen.

In diesen Fällen kann eine gut kalibrierte Schätzung der Ausgabesicherheit dazu beitragen, Fehler zu vermeiden und die Zuverlässigkeit zu erhöhen sowie Mitigationsstrategien möglich zu machen.

Unser Angebot:

Profitieren Sie von unserer fundierten Erfahrung im Bereich Unsicherheitsschätzung und -bewertung: Wir bieten Beratung, Einschätzung und Integration zu bestehenden Projekten und Produkten, aber auch Neuentwicklungen von Konzeption bis Deployment.

Während unsere Kernkompetenz in der Verarbeitung komplexer Bilddaten liegt, decken wir weitere Anwendungsbereiche des überwachten Lernens ab (Regression, Klassifikation). Hierbei nutzen und evaluieren wir diverse Ansätze zur Bewertung und Bestimmung von Unsicherheit, beginnend bei einschlägigen Verfahren aus der Literatur bis zu aktuellster Forschung und betreiben eigene Weiterentwicklungen.

UNverbindlichen BeratungsTermin Anfragen 

© Fraunhofer IAIS
Bei der Unsicherheitsschätzung werden Kamerabilder analysiert. Den gefundenen Objekten wird eine Unsicherheit zugeordnet, die über die Dicke und Farbe des Rahmens um das Objekt dargestellt wird. So wird das Objekt rechts hier als sehr unsicher eingestuft, da bei diesem Auto die Heckklappe geöffnet ist.
© Fraunhofer IAIS
Bei diesem Beispiel detektiert das System zunächst vier Objekte, wovon nur zwei korrekt sind (TP). Die beiden Falsch-Vorhersagen (FP) lassen sich jedoch herausfiltern, da sie mit einer hohen Unsicherheitsschätzung einhergehen.
  • © Pexels/Fraunhofer IAIS
    Die teilweise Überdeckung (Okklusion) von Personen oder Objekten kann dazu führen, dass ein KI-Modell Fußgänger nicht eindeutig erkennt.
    © Pexels/Fraunhofer IAIS
    Auch geringe Kontraste, wie z. B. bei Nachtaufnahmen, erschweren die Verarbeitung durch ein ML-Modell.

    Aufgrund seiner hohen Anforderungen und Komplexität ist das Autonome Fahren ein gutes Beispiel für die Bedeutung von Unsicherheitsschätzungen.

    In Verkehrssituationen muss insbesondere die eindeutige Erkennung vulnerabler Verkehrsteilnehmer wie z. B. Fußgänger oder Radfahrer gewährleistet sein. Dies kann z. B. schwierig sein, wenn Fußgänger sich gegenseitig verdecken oder Aufnahmen bei Nacht gemacht werden. Das KI-Modell könnte so Fußgänger nicht eindeutig oder auch Radfahrer fälschlicherweise als Fußgänger erkennen. Hier hilft eine Unsicherheitseinschätzung, die diese Problemfälle erkennt, damit sie gesondert und mit mehr Umsicht in der Planung berücksichtigt werden können.

    Auch abseits vom Schutz menschlichen Lebens kann Unsicherheit einen relevanten Beitrag leisten. In einer Fertigungsstraße bspw. kann eine »Automated Optical Inspection« (AOI) zur Qualitätssicherung eines in Serie gefertigten Produktes eingesetzt werden. Eine fehlerhafte Vorhersage kann hier bestenfalls zu unnötigem Ausschuss führen, da eigentlich hochwertige Produkte aussortiert werden, oder schlimmstenfalls zur Weiterverarbeitung oder zum Verkauf eines fehlerbehafteten Produktes. Auf Basis einer gut kalibrierten Unsicherheit ließe sich zwar nicht die Performanz der KI-Anwendung direkt erhöhen, sie würde aber einen Ausschlag dafür geben, bei welchen Produkten eine weitere Nachprüfung – etwa durch einen Menschen – sinnvoll erscheint. Hierdurch würde unter der Annahme, dass Mensch und KI unabhängig prüfen, Ausschuss verringert und Qualitätseinbrüche reduziert.

  • © Fraunhofer IAIS
    Die epistemische Unsicherheit bezeichnet die Unsicherheit bezüglich der Modellparameter und ist insbesondere in Bereichen hoch, für die keine Trainingsdaten vorliegen.
    © Fraunhofer IAIS
    Die aleatorische Unsicherheit bezeichnet die Datenunsicherheit, z. B. ungenaue Größen- und Formangaben von Gewebe auf Röntgenaufnahmen.

    Bei Unsicherheiten in der Modellvorhersage wird üblicherweise zwischen zwei grundlegenden Arten unterschieden. Gerade bei komplexen Fragestellungen treten meist beide Arten von Unsicherheit mit unterschiedlicher Gewichtung auf.

    Epistemische Unsicherheit (Unsicherheit bzgl. der Modellparameter)

    Hier decken die Daten, auf denen das ML-Modell trainiert ist, nicht den gesamten Bereich möglicher Eingabedaten ab und das Modell muss zwischen oder außerhalb der gesehenen Datenpunkte inter- oder extrapolieren. In diesen Bereichen kann oft keine vollständig belastbare Aussage über das zu erwartende Ergebnis getroffen werden.

    Diese Form von Unsicherheit ist ein Standardproblem von KI-Anwendungen, die starke Anforderungen an die Generalisierungsfähigkeit zwischen Datenpunkten haben oder bei denen nicht alle mögliche Eingabedaten oder Interaktionen vorab bekannt sein können. Dies betrifft vor allem KI-Anwendungen, die in einem Open World Context eingesetzt werden, also beispielsweise über eine offene Schnittstelle verfügen, über die neuartige Daten z. B. aus dem öffentlichen Raum eingehen können. Beispiel: So könnte ein Fußgänger im Löwenkostüm für ein KI-System zur Personenerkennung im Autonomen Fahren eine zuvor ungesehene Herausforderung darstellen, die um die Karnevalssaison herum aber durchaus auftreten kann. Sofern die KI-Anwendung nicht auf diesen Fall sinnvoll extrapolieren kann, sollte zumindest ein Schätzer für epistemische Unsicherheit anschlagen und die Person als neuartiges Objekt einstufen können

    Aleatorische Unsicherheit (Datenunsicherheit)  

    Die zweite Art von Unsicherheit bezeichnet den Daten inhärente Unwägbarkeiten. Prototypische Beispiele sind verrauschte Datensätze, wie etwa der Stromverbrauch eines Haushalts. Allgemein handelt es sich um Problemstellungen, bei denen die zur Verfügung stehenden Daten nicht ausreichen, um eine eindeutige Entscheidung zu treffen. Dies kann neben typischen Regressionsmodellen auch komplexe Datensätze betreffen, beispielsweise kann es bei der Erkennung von Leberkarzinomen auf Röntgenaufnahmen Unstimmigkeiten bezüglich präziser Form und Größe zwischen verschiedenen menschlichen Expert*innen geben. Für eine sinnvolle Einschätzung von Ergebnissen kann es hilfreich sein, diese Unsicherheit auch in einer KI-Anwendung für die gleiche Aufgabenstellung abzubilden.

     

  • Kalibrierung und vorhandene Korrelationen sind zwei zentrale Anforderungen an sinnvoll nutzbare Unsicherheitsschätzer.

    Kalibrierung

    Bei der Kalibrierung handelt es sich um ein Performanzmaß für die Güte der Unsicherheitsschätzung. Sofern ein KI-Algorithmus eine Aussage mit 99 Prozent Konfidenz tätigt, so ist die Erwartungshaltung, dass von 100 so bewerteten Produkten im Mittel lediglich eins den Anforderungen nicht genügt. Ein Beispiel ist die Klassifizierung der Tauglichkeit eines geprüften Produkts.

    Die Kalibrierung ist abhängig von der Güte, d. h. der Performanz, der KI-Anwendung selbst und wird häufig über den »Expected Calibration Error« (ECE) gemessen.

    Korrelationen

    Neben der (globalen) Kalibrierung ist das Vorhandensein ausreichender Korrelationen zwischen Unsicherheitsschätzung und tatsächlicher Modellqualität für einen gegebenen Input entscheidend. Eine hohe Korrelation (vgl. Abbildung rechts) ist Grundvoraussetzung für einen guten Unsicherheitsmechanismus, da diese erlaubt anhand der Unsicherheitsschätzung auf die lokale Qualität der Modellvorhersage zu schließen. Im Falle einer hohen vorhergesagten Unsicherheit ist dann davon auszugehen, dass die Modellentscheidung stark fehlerbehaftet ist. Diese Information kann genutzt werden, um z. B. menschliche Expert*innen zu informieren, die weitere Schritte ergreifen.

    © Fraunhofer IAIS
    Symbolische Darstellung des Zusammenhangs zwischen tatsächlichem Modellfehler (x-Achse) und der Unsicherheitsschätzung des Modells (y-Achse).