Ihr habt den Projektantrag federführend für Euer Team übernommen und damit ganz wesentlich zum Gewinn der Rechenkapazitäten beigetragen. Was war Euer erste Gedanke, als ihr von dem Zuschlag erfahren habt?
Wir wussten, dass es sich um einen Meilenstein für uns und für ganz Europa handelt. Wir waren überwältigt von Freude und Stolz, eines der größten Kontingente an Rechenkapazitäten auf der EuroHPC-Infrastruktur gewonnen zu haben. Dies eröffnet uns die Möglichkeit, bedeutende Fortschritte im Bereich der generativen KI zu erzielen und Europas Stellung in der globalen KI-Forschung zu stärken. Unsere Vision von multilinguellen, offenen und leistungsfähigen Sprachmodellen für Europa rückt nun in greifbare Nähe.
Wie werden die Rechenkapazitäten Eure Arbeit verändern? Was ist nun möglich?
Durch die genehmigten Rechenkapazitäten haben wir die Möglichkeit, die größten Open-Source-Modelle auf gigantischen Datenmengen zu trainieren, was erfahrungsgemäß zu einer immensen Leistungssteigerung in realen Anwendungen führen wird. Gleichzeitig können wir dank dieser Rechenkapazitäten wichtige Fragestellungen in Bezug auf Multilingualität untersuchen und damit die Forschung in diesem Bereich maßgeblich vorantreiben.
Was ist die größte Herausforderung bei der Entwicklung leistungsfähiger europäischer Modelle, und wie wollt ihr diese überwinden?
Die größte Herausforderung wird die neue Dimension der Multilingualität sein. Diese erfordert, dass wir uns mit vielerlei Fragestellungen auseinandersetzen, wie beispielsweise Skalierungsgesetzen, der Entwicklung von Tokenizern, der Datenqualität und den Evaluierungsmethoden. Ein zentrales Thema ist die Datenbasis. Um die hohe Qualität und Vielfalt der benötigten Daten sicherzustellen, müssen wir umfangreiche und repräsentative Datensätze aus den verschiedenen europäischen Sprachen und Dialekten zusammenstellen und kuratieren. Bereits in den Projekten OpenGPT-X und TrustLLM haben wir Forschungsprojekte im Bereich der Tokenizer-Entwicklung und der Evaluierungsmethoden sehr erfolgreich umgesetzt und wichtige Erkenntnisse für das Training von multilingualen Modellen erhalten. Diese Arbeiten werden wir im EuroLingua-Projekt weiterführen, und zu Beginn insbesondere die Frage nach der Datenqualität evaluieren.