EuroLingua-GPT

Rechenkapazitäten für das Training großer KI-Sprachmodelle

Gemeinsam mit der NLU-Gruppe von AI Sweden haben wir Rechenzeit am neuen Hochleistungsrechner MareNostrum 5 im Barcelona Supercomputing Center erhalten. Es handelt sich um eines der größten Kontingente, die seitens des Gemeinsamen Unternehmens für europäisches Hochleistungsrechnen (GU EuroHPC) für die Entwicklung europäischer großer KI-Sprachmodelle (LLMs) auf der EuroHPC-Infrastruktur gewährt wurden. Damit rücken nun auch große europäische multilinguale Open-Source-Modelle in greifbare Nähe.

Eine Modellfamilie, alle europäischen Sprachen

Die Modelle, die auf der EuroHPC-Infrastruktur entwickelt werden, sollen zum einen als generalistische Basismodelle Forschung und Wissenschaft fördern, zum anderen – etwa in gemeinsamen Transfer-Projekten – auch auf bestimmte Branchen oder Themen-gebiete spezialisiert für den produktiven Einsatz in Unternehmen oder öffentlichen Verwaltungen trainiert werden.

Die Veröffentlichung erster gemeinsamer Modelle soll im Laufe der kommenden Monate erfolgen.

Datensatz

Die neuen EuroLingua-Modelle bauen auf einem Trainingsdatensatz auf, der aus 45 europäischen Sprachen, Dialekten und Code besteht, einschließlich der 24 europäischen Amtssprachen. Damit liegt eine signifikante Gewichtung auf europäischen Sprachen und Werten – bisher sind multilinguale KI-Sprachmodelle noch selten. Selbst neuere multilinguale Modelle wie die LLama 3.1 Familie mit ihren 405 Milliarden Parametern nutzen aktuell nur 8 Prozent mehrsprachige Dokumente, welche sich zusätzlich auf 176 Sprachen verteilen.

Vorteile multilingualer Sprachmodelle

Diese Fokussierung auf europäische Sprachen und Inhalte bringt zahlreiche Vorteile mit sich. Durch die intensive Auseinandersetzung mit 45 europäischen Sprachen und Dialekten entwickeln die EuroLingua-Modelle ein tieferes Verständnis für die sprachlichen Nuancen und kulturellen Kontexte innerhalb Europas, was zu einer deutlich verbesserten Sprachkompetenz führt. Gleichzeitig tragen die Modelle durch die Unterstützung aller offiziellen EU-Sprachen maßgeblich zur Überwindung von Sprachbarrieren bei und fördern somit den europaweiten Austausch und die Zusammenarbeit, was die europäische Integration vorantreibt.

Die Modelle eignen sich besonders gut für spezialisierte Anwendungen im europäischen Kontext, sei es in der EU-Verwaltung, im europäischen Bildungswesen oder in multinationalen Unternehmen mit Fokus auf Europa. 

Ein weiterer bedeutender Vorteil liegt in der Fähigkeit der Modelle, präzisere Übersetzungen zu liefern. Das tiefe Verständnis der Beziehungen zwischen europäischen Sprachen ermöglicht genauere Übersetzungen und Interpretationen innerhalb des europäischen Sprachraums, was die Kommunikation und das gegenseitige Verständnis zwischen den verschiedenen europäischen Kulturen und Nationen weiter verbessert. 

INTERVIEW

Mehdi Ali, Research Scientist, Fraunhofer IAIS
Mehdi Ali, Research Scientist, Fraunhofer IAIS
Michael Fromm, Research Scientist, Fraunhofer IAIS
Michael Fromm, Research Scientist, Fraunhofer IAIS


Ihr habt den Projektantrag federführend für Euer Team übernommen und damit ganz wesentlich zum Gewinn der Rechenkapazitäten beigetragen. Was war Euer erste Gedanke, als ihr von dem Zuschlag erfahren habt?

Wir wussten, dass es sich um einen Meilenstein für uns und für ganz Europa handelt. Wir waren überwältigt von Freude und Stolz, eines der größten Kontingente an Rechenkapazitäten auf der EuroHPC-Infrastruktur gewonnen zu haben. Dies eröffnet uns die Möglichkeit, bedeutende Fortschritte im Bereich der generativen KI zu erzielen und Europas Stellung in der globalen KI-Forschung zu stärken. Unsere Vision von multilinguellen, offenen und leistungsfähigen Sprachmodellen für Europa rückt nun in greifbare Nähe.

Wie werden die Rechenkapazitäten Eure Arbeit verändern? Was ist nun möglich?

Durch die genehmigten Rechenkapazitäten haben wir die Möglichkeit, die größten Open-Source-Modelle auf gigantischen Datenmengen zu trainieren, was erfahrungsgemäß zu einer immensen Leistungssteigerung in realen Anwendungen führen wird. Gleichzeitig können wir dank dieser Rechenkapazitäten wichtige Fragestellungen in Bezug auf Multilingualität untersuchen und damit die Forschung in diesem Bereich maßgeblich vorantreiben.

Was ist die größte Herausforderung bei der Entwicklung leistungsfähiger europäischer Modelle, und wie wollt ihr diese überwinden?

Die größte Herausforderung wird die neue Dimension der Multilingualität sein. Diese erfordert, dass wir uns mit vielerlei Fragestellungen auseinandersetzen, wie beispielsweise Skalierungsgesetzen, der Entwicklung von Tokenizern, der Datenqualität und den Evaluierungsmethoden. Ein zentrales Thema ist die Datenbasis. Um die hohe Qualität und Vielfalt der benötigten Daten sicherzustellen, müssen wir umfangreiche und repräsentative Datensätze aus den verschiedenen europäischen Sprachen und Dialekten zusammenstellen und kuratieren. Bereits in den Projekten OpenGPT-X und TrustLLM haben wir Forschungsprojekte im Bereich der Tokenizer-Entwicklung und der Evaluierungsmethoden sehr erfolgreich umgesetzt und wichtige Erkenntnisse für das Training von multilingualen Modellen erhalten. Diese Arbeiten werden wir im EuroLingua-Projekt weiterführen, und zu Beginn insbesondere die Frage nach der Datenqualität evaluieren.

 

 

»Das Ziel unserer Zusammenarbeit mit AI Sweden ist es, eine Familie von großen KI-Sprachmodellen von Grund auf zu trainieren, die Open Source veröffentlicht werden sollen.«

Projektleiter Dr. Nicolas Flores-Herr, Teamleiter Conversational AI am Fraunhofer IAIS

GenAI
»made in Europe«

»Die gewonnenen Rechenkapazitäten sind ein Meilenstein für Deutschland und Europa. Die damit trainierten Modelle werden den Einsatz generativer KI in Unternehmen massiv beschleunigen und sowohl Wirtschaft als auch Wissenschaft einen Boost geben.«

Dr. Joachim Köhler, Abteilungsleiter NetMedia am Fraunhofer IAIS

»Das Ziel unserer Zusammenarbeit mit AI Sweden ist es, eine Familie von großen KI-Sprachmodellen von Grund auf zu trainieren, die Open Source veröffentlicht werden sollen.«

Projektleiter Dr. Nicolas Flores-Herr, Teamleiter Conversational AI am Fraunhofer IAIS

»Sowohl der öffentliche als auch der private Sektor in der EU verlangen nach offenen, leistungs-fähigen Sprachmodellen, die für europäische Sprachen trainiert sind. EuroLingua ist eine Möglichkeit, diesen Bedarf zu adressieren.«

Magnus Sahlgren, Head of Research NLU bei AI Sweden

Fraunhofer IAIS und AI Sweden bündeln ihre Expertise

Das Fraunhofer IAIS und die NLU-Gruppe von AI Sweden sind zwei der führenden LLM-Labore in Europa mit ausgewiesener Expertise und jahrelanger Erfahrung in der Entwicklung von LLMs. So leitet Fraunhofer das vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderte Konsortialprojekt OpenGPT-X, in der ebenfalls große europäische, multilinguale Open-Source-Modelle entwickelt werden.

Die NLU-Gruppe von AI Sweden hat das LLM GPT-SW3 für die skandinavischen Sprachen entwickelt. Die beiden Teams arbeiten auch gemeinsam an weiteren Open-Source-Community-Projekten.

Zudem ist EuroLingua-GPT eines von drei großen laufenden EU-Projekten zu Sprachmodellen, an denen Fraunhofer IAIS und AI Sweden beteiligt sind. Die beiden anderen sind TrustLLM und Deploy AI.