Prüftools für einen sicheren und vertrauenswürdigen Einsatz von KI
Dr. Maximilian Poretschkin, Leiter KI-Absicherung und Zertifizierung, zeigt auf der Hannover Messe anhand unterschiedlicher Prüftools auf, wie man die Qualität von KI-Anwendungen testen kann und warum dies immer wichtiger wird.
Er stellt mehrere Prüftools und Verfahren vor, die Künstliche Intelligenzen in Bezug auf ihre Verlässlichkeit, Fairness, Robustheit und Transparenz untersuchen und bewerten. Die Prüfkriterien basieren auf dem KI-Prüfkatalog, einem Leitfaden zur Gestaltung vertrauenswürdiger Künstlicher Intelligenz, der von den Fraunhofer IAIS-Expert*innen 2021 veröffentlicht wurde. Seit Anfang 2023 ist er auch in englischer Übersetzung verfügbar.
Doch warum ist es wichtig, die Güte von KI-Anwendungen systematisch prüfen zu können? »Insbesondere in sensiblen Anwendungsfeldern, wie etwa der medizinischen Diagnostik, dem HR-Management, dem Finanzwesen, der Strafverfolgung oder in sicherheitskritischen Bereichen müssen KI-Systeme absolut zuverlässige Ergebnisse liefern. Der AI Act – der Europäische Entwurf zur Regulierung von KI-Systemen – stuft viele dieser Beispiele in die Hochrisiko-Kategorie ein und sieht für sie Prüfungen sogar verpflichtend vor«, erklärt Dr. Poretschkin. »Unternehmen, die Hochrisiko-KI-Anwendungen entwickeln oder einsetzen, müssen sich spätestens jetzt dringend mit der Qualitätssicherung ihrer Anwendungen auseinandersetzen.«
Die Herausforderung dabei: KI funktioniert anders als herkömmliche Software. Letztere ist regelbasiert programmiert, was ein systematisches Durchtesten ihrer Funktionalität erlaubt – also ob die Antworten bzw. Ausgaben in Abhängigkeit der Eingaben korrekt sind. Dies funktioniert bei KI-Anwendungen nicht ohne Weiteres, insbesondere wenn sie auf Neuronalen Netzen basieren.
Das Werkzeug »ScrutinAI« des Fraunhofer IAIS befähigt Prüfer*innen, systematisch nach Schwachstellen von Neuronalen Netzen zu suchen und somit die Qualität der KI-Anwendungen zu testen. Ein konkretes Beispiel ist eine KI-Anwendung, die Anomalien und Krankheiten auf CT-Bildern erkennt. Hier stellt sich die Frage, ob alle Arten von Anomalien gleichermaßen gut erkannt werden oder einige besser und andere schlechter. Diese Analyse hilft Prüfer*innen zu beurteilen, ob eine KI-Anwendung gut genug für ihren vorgesehenen Einsatzkontext ist. Gleichzeitig können auch Entwickler*innen profitieren, indem sie Unzulänglichkeiten ihrer KI-Systeme frühzeitig erkennen und entsprechende Verbesserungsmaßnahmen ergreifen, wie etwa die Anreicherung der Trainingsdaten um spezifische Beispiele. Der Einsatz des Werkzeugs ist dabei für viele Use Cases denkbar, etwa bei einer KI-Anwendung, die Schwachstellen und Materialfehler in sicherheitskritischen Bauteilen detektiert.