Generative KI

Wie funktioniert Generative KI?

Kern von Generativer KI sind große Sprachmodelle (Large Language Models, LLMs) mit leistungsfähigen Transformer-Architekturen. Diese Modelle werden auf Hochleistungsrechnern mit umfangreichen Datenmengen trainiert und bilden den Motor moderner KI-Systeme, von Retrieval-Augmented-Generation-Ansätzen (RAG) bis hin zu agentischen Systemen.

 

Was sind Forschungsschwerpunkte im Bereich Generative KI?

Die Forschung am Fraunhofer IAIS konzentriert sich auf die Weiterentwicklung grundlegender KI-Technologien und die verantwortungsvolle Gestaltung großer Sprachmodelle. 

  • KI-basierte Kuration und Synthese hochwertiger Trainingsdaten: Wir erforschen neue Methoden, bei denen (domänenspezifische) Trainingsdaten KI-gestützt ausgewählt und erzeugt werden. Mit diesen Daten kann das Training effizienter durchgeführt und es können leistungsstärkere Modelle entwickelt werden.
  • Verbesserte Schlussfolgerungsfähigkeiten: Wir erforschen Reasoning-Modelle, die komplexe Aufgaben zunächst in verständliche Teilschritte zerlegen und diese dann kohärent und Schritt für Schritt lösen.
  • Wissensdestillation: Wir erforschen neue Ansätze, um ausgesuchte Fähigkeiten großer Modelle gezielt in kompakte, energieeffiziente Modelle zu übertragen, die lokal betrieben werden können.
  • Domänenspezifische Anpassung: Wir erforschen Methoden zur Optimierung schlanker, spezialisierter Modelle, um domänenspezifische Aufgaben präziser und ressourceneffizienter zu lösen.
  • Multiagenten-Systeme: Wir erforschen modulare Agentensysteme, die sich je nach Aufgabenstellung dynamisch aus verschiedenen Modellen zusammensetzen und kooperativ komplexe Problemstellungen lösen.
  • Multimodalität: Wir forschen an multimodalen Foundation-Modellen, die Text, Bilder, Audio, Video und strukturierte Daten in unterschiedlichen Kombinationen verarbeiten können. Unser Schwerpunkt liegt dabei auf neuen Methoden, die das multimodale Schlussfolgern über mehrere Modalitäten hinweg verbessern.

Die Forschungsarbeiten zur Generativen KI sind eng mit der Foundation Model Gruppe des Lamarr-Instituts verzahnt. Ein wichtiger Meilenstein ist die Entwicklung der Teuken-Modelle im Rahmen des Forschungsprojekts OpenGPT-X, die durch innovative Tokenisierung und mehrsprachige Trainingsdaten neue Maßstäbe gesetzt haben.

 

Was bringt die Forschung an Generativer KI für die Anwendung im Unternehmen?

Unsere Forschung zielt darauf ab, die nächste Generation von KI-Systemen zu entwickeln, die leistungsstärker, effizienter und anpassungsfähiger sind. In den Bereichen Datenkuration und -synthese, Reasoning, Wissensdestillation, domänenspezifische Modellanpassung und dynamisch zusammensetzbare Multiagenten-Systeme machen wir große Fortschritte. Dadurch ermöglichen wir Unternehmen, KI-Lösungen einzusetzen, die optimal auf ihre individuellen Anforderungen abgestimmt sind und sich nahtlos in bestehende Prozesse integrieren lassen.

Forschungsprojekte und -kooperationen

 

Entwicklung des multilingualen Sprachmodells Teuken 7B

OpenGPT-X

Im Projekt OpenGPT-X wurde die gesamte Wertschöpfungskette der Generativen KI erforscht und erprobt. Mit Teuken 7B wurde ein europäisches, vertrauenswürdiges, multilinguales Sprachmodell entwickelt und veröffentlicht. Eine der wichtigen Forschungsfragen war dabei, wie multilinguale KI-Sprachmodelle möglichst energie- und kosteneffizient trainiert und betrieben werden können.  

KI-Technologieplattform für Unternehmen und den öffentlichen Sektor

DeployAI

DeployAI widmet sich der Aufgabe, KI-Lösungen für kleine und mittlere Unternehmen (KMU) und den öffentlichen Sektor in ganz Europa leichter zugänglich und nutzbar zu machen. Die Initiative wird von der Europäischen Kommission mit 28 Millionen Euro gefördert und ist ein gemeinsames Projekt zur Gestaltung der Zukunft der KI in Europa.

Die nächste Generation von multilingualen Open-Source-Sprachmodellen

OpenEuroLLM

Europas führende KI-Forschungseinrichtungen und -Organisationen, darunter das Fraunhofer IAIS, bündeln im Projekt OpenEuroLLM ihre Kräfte und ihr Fachwissen. Hier entsteht die nächste Generation von multilingualen Open-Source-Sprachmodellen – offen, vertrauenswürdig und multilingual. 

 

KI-Turbo für Europa: Unternehmen erhalten Zugang zum Supercomputer

Jupiter AI Factory

Die AI Factory um den Jülicher Supercomputer JUPITER soll das Training von KI-Modellen der nächsten Generation vorantreiben und insbesondere deutsche und europäische Start-Ups sowie kleine und mittlere Unternehmen bei der Entwicklung von leistungsstarken, sicheren und datenschutzkonformen KI-Anwendungen unterstützen.

Entwicklung eines offenen, vertrauenswürdigen und faktenbasierten LLM

TrustLLM

Hauptziel von TrustLLM ist die Entwicklung eines offenen, vertrauenswürdigen und faktenbasierten LLM, das zunächst auf germanische Sprachen ausgerichtet ist. Damit wird die Grundlage für ein fortschrittliches offenes Ökosystem für modulare und erweiterbare europäische LLMs der nächsten Generation geschaffen.

Weitere Kooperationen

Im Zentrum eines wachsenden, eng vernetzten Innovationsökosystems forscht das Fraunhofer IAIS zu unterschiedlichen Themenschwerpunkten rund um Künstliche Intelligenz und Maschinelles Lernen. 

Weiterführende Informationen

Paper (2025)

»Judging Quality Across Languages (JQL)«

 

High-quality multilingual training data is essential for effectively pretraining large language models (LLMs). Yet, the availability of suitable open-source multilingual datasets remains limited. Existing state-of-the-art datasets mostly rely on heuristic filtering methods, restricting both their cross-lingual transferability and scalability.

In this paper, we introduce JQL, a systematic approach that efficiently curates diverse and high-quality multilingual data at scale while significantly reducing computational demands. 

Fachbuch (2023)

»Foundation Models for NLP«

 

In dem Buch »Foundation Models for Natural Language Processing – Pre-trained Language Models Integrating Media« von Sven Giesselbach und Gerhard Paaß (Fraunhofer IAIS) erhalten Sie einen kompakten Einblick in den aktuellen Forschungstand und die vielfältigen Anwendungen von Foundation Models im Bereich Natural Language Processing (NLP). Das Buch ist 2023 im Springer-Verlag erschienen und kostenlos zum Download verfügbar.

Podcasts

Unsere Experten im Gespräch

 

Europäische LLMs

Knowledge Science Episode 168

23.11.2024 | Dr. Mehdi Ali, Michael Fromm

Hier anhören

 

 

ChatGPT und Co – Potenzial von KI-Sprachmodellen

10.2.2023 | Prof. Dr. Christian Bauckhage

Hier anhören

Kontakt

 

Dr. Mehdi Ali

Leiter der Innovationsgruppe für Forschung an Foundation Models