Teuken Model Card und multilinguale Benchmarks

Benchmarks sind ein wichtiger Indikator, um die generelle Leistungsfähigkeit von Modellen zu messen. Ob Teuken ein geeignetes Modell für den jeweiligen Anwendungsfall im Unternehmen ist, findet man am besten durch den Einsatz in der jeweiligen Anwendung heraus. Sie können uns gerne kontaktieren, wir unterstützen Sie dabei.

 

»Teuken 7B« ist in zwei Versionen erhältlich

»Teuken 7B-instruct-research-v0.4« kann für Forschungszwecke verwendet werden, »Teuken 7B-instruct-commercial-v0.4« steht Unternehmen für kommerzielle Zwecke unter der Lizenz »Apache 2.0« zur Verfügung.

»Teuken 7B-instruct-v0.4« zeigt in einer Vielzahl von EU-Sprachen eine gleichbleibend gute Leistung. Um dies zu erreichen, wurde das zugrunde liegende Basismodell nicht primär auf Englisch trainiert, sondern von Grund auf mehrsprachig in allen 24 EU-Sprachen.

»Teuken 7B-instruct-commercial-v.04« ist in etwa vergleichbar mit der Forschungsversion, obwohl die Forschungsversion bei den Benchmarks leicht bessere Ergebnisse im Bereich von ein bis zwei Prozent erzielt. Der Grund dafür ist, dass einige der für das »Instruction Tuning« verwendeten Datensätze die kommerzielle Nutzung ausschließen und daher in der Apache-2.0-Version nicht verwendet wurden.
 

Modelle vergleichen: Unser European LLM Leaderboard

Mit Hilfe unseres European LLM Leaderboard ist es erstmals möglich, die Leistung von LLMs über fast alle EU-Sprachen hinweg zu vergleichen, anstatt wie bisher nur englischsprachige Evaluierungsdatensätze zu verwenden. Zu diesem Zweck wurden zunächst u.a. die Benchmark-Datensätze HellaSwag, ARC und TruthfulQA mittels hochwertiger maschineller Übersetzung in insgesamt 21 Sprachen übersetzt.
 

Welche Benchmarks haben wir für den Vergleich unserer Modelle verwendet? Und was bedeuten sie?

  • Im HellaSwag-Datensatz werden Multiple-Choice-Fragen zur Vervollständigung von Sätzen mit hohem Verwechslungspotenzial gestellt, um das Alltagswissen und die narrative Kohärenz von Modellen zu bewerten.
  • Im ARC-Datensatz werden Multiple-Choice-Fragen gestellt, um die Fähigkeiten von KI-Modellen in Bezug auf verschiedene Arten von Wissen und Denkprozessen zu bewerten.
  • Der TruthfulQA-Datensatz misst den Wahrheitsgehalt von Antworten, die von Sprachmodellen generiert werden, und dient der Unterscheidung zwischen wahren und falschen Informationen.
  • GSM8K ist ein Benchmark mit 8.000 mathematischen Wortproblemen zur Bewertung der Fähigkeit eines Sprachmodells, mathematisches Denken und Problemlösen auf Grundschulniveau zu beherrschen.
  • MMLU ist ein breit angelegter Benchmark, bei dem Modelle in mehr als 50 Fächern getestet werden und ihr Wissen in Bereichen von Geistes- bis zu Naturwissenschaften auf verschiedenen akademischen Niveaus bewertet wird.

Im Folgenden stellen wir »Teuken 7B-instruct-research-v0.4« im Detail vor.

 

Model Card

Technische Infos zum Modell und zur Anwendung.  

Leaderboard

Alle Evaluierungsergebnisse anhand unseres European LLM Leaderboard.

 

Download

Entwicklerinnen und Entwickler können hier »Teuken 7B« unter der Lizenz »Apache 2.0« (oder unter einer Forschungslizenz) auf Hugging Face kostenfrei herunterladen. 

Neben Code enthalten die Teuken-Modelle etwa 50 Prozent nicht-englische Daten aus 23 europäischen Ländern und nur etwa 40 Prozent englische Pretraining-Daten. Damit unterscheidet sich »Teuken 7B-v0.4« von den meisten bisher verfügbaren mehrsprachigen Modellen, die erst im Zuge eines fortgeführten Pretrainings oder Finetunings um mehrsprachige Daten erweitert wurden. Meta-Llama-3.1-8B wurde beispielsweise nur mit acht Prozent nicht-englischen Daten trainiert, was sich deutlich von der Sprachzusammensetzung der Pretraining-Daten von Teuken unterscheidet.

Das Diagramm zeigt den Vergleich von »Teuken 7B-instruct-research-v0.4« mit instruction-tuned Open-Source-LLMs mit sieben bis acht Milliarden Parametern auf der Grundlage ausgewählter Benchmarks unter Angabe der Leistung (Genauigkeit). Die Auswahl umfasste

  • Mistral-7B-Instruct-v0.3 (trainiert auf 8 T Token)
  • Meta-Llama-3.1-8B-Instruct (trainiert auf 15 T Token)
  • Salamandra-7b-Instruct (trainiert auf 7,8 T Token)
  • Occiglot-7b-eu5-Instruct (basiert auf Mistral-7B-v0.1, das auf 8 T Token trainiert wurde und auf 293 B Token zusätzlicher mehrsprachiger und Code-Daten trainiert wurde)
  • Pharia-1-LLM-7B-control-aligned (trainiert auf 7,7 T Token)

Die Evaluierungsergebnisse der einzelnen Sprachen der Modelle (ohne Feintuning) sind hier als Durchschnittswert über 21 Sprachen dargestellt, wobei Maltesisch, Kroatisch und Irisch weggelassen wurden, da sie nicht in ausreichender Qualität automatisch übersetzt werden konnten.

Das Balkendiagramm zeigt die Leistung von »Teuken 7B-instruct-research-v0.4« in den multilingualen Benchmarks ARC-, HellaSwag- und TruthfulQA im Vergleich zu anderen Open-Source-Modellen ähnlicher Größe. Die Balken zeigen die Performance für den jeweiligen Benchmark über 21 europäische Sprachen gemittelt, und den Mittelwert aller drei Benchmarks. Bei dieser Auswahl von Benchmarks liegt »Teuken 7B-instruct-research-v0.4« im Durchschnitt vor allen anderen Modellen. Bei den einzelnen Benchmarks ARC und HellaSwag liegt Teuken an zweiter Stelle hinter Salamandra-7b-instruct, und bei TruthfulQA an zweiter Stelle hinter Mistral-7B-Instruct-v0.3. Es ist bemerkenswert, dass diese Modelle auf 7,8 T bzw. 8 T Token trainiert wurden.

Obwohl unser Modell in den linguistischen und wissensbasierten Aufgaben gut abschneidet, gibt es noch Entwicklungspotenzial bei den Benchmarks GSM8K und MMLU. Dies wird in zukünftigen Trainingsläufen angegangen werden.

Um das Modell im Benchmarking weiter zu verbessern, sind nicht nur ausreichend hochwertige Trainingsdaten wichtig, sondern es muss auch genügend Rechenkapazität auf speziellen Hochleistungsrechnern für die Vorverarbeitung der Trainingsdaten, wissenschaftliche Experimente und Trainingsmodelle zur Verfügung stehen. Im Rahmen von OpenGPT-X wurden in Deutschland rund zwei Millionen Stunden Rechenzeit von den deutschen HPC-Zentren zur Verfügung gestellt. Dank der erfolgreichen Beantragung von Rechenzeit auf MareNostrum kann das Training auch in Zukunft auf EuroHPC-Systemen fortgesetzt werden.

Trotz eines Instruction Tuning können große Sprachmodelle Inhalte generieren, die unangemessen, beleidigend oder schädlich sind. Unsere Auswertung von Bias und Toxizität zeigt, dass »Teuken 7B-instruct-research-v0.4« im Vergleich zu anderen Modellen im Mittelfeld liegt, was bedeutet, dass bei den Benchmarks Bias und Toxizität noch Entwicklungspotenzial besteht.

Das Diagramm zeigt die Standardabweichung der Mittelwerte über 21 Sprachen für die jeweiligen Benchmarks. Je niedriger die Standardabweichung ist, desto konsistenter ist die Leistung des Modells für die Aufgabe in allen untersuchten Sprachen. Ein niedriger Wert bedeutet also, dass das Modell in seiner Leistung über alle Sprachen hinweg stabiler und zuverlässiger ist.

Die Ergebnisse zeigen, dass »Teuken 7B-instruct-research-v0.4« nach Salamandra-7b-instruct mit HellaSwag und ARC an zweiter Stelle liegt. Mit TruthfulQA erreichen alle Modelle eine vergleichsweise geringe Standardabweichung. Die geringste Standardabweichung in TruthfulQA erreicht Meta-Llama-3.1-8B, dicht gefolgt von »Teuken 7B-instruct-research-v0.4«.

Im Durchschnitt aller drei Aufgaben hat Salamandra-7b-instruct die niedrigste Standardabweichung, wobei »Teuken 7B-instruct-research-v0.4« mit nur geringem Abstand die zweitniedrigste Standardabweichung aufweist. Diese Ergebnisse deuten darauf hin, dass Modelle, die mit einem mehrsprachigen Datensatz trainiert wurden, in verschiedenen Sprachen zuverlässiger arbeiten. Diese Hypothese wurde auch durch andere Benchmarks bestätigt. Umgekehrt zeigen andere Modelle für einzelne Sprachen Ausreißer nach oben oder nach unten von der durchschnittlichen Leistung.

Weitere Forschungsarbeiten zu mehrsprachigen Modellen sind erforderlich, um den hier beobachteten Effekt zu untersuchen und zu verifizieren.

Das OpenGPT-X Projekt legte von Anfang an besonderen Wert auf die effiziente Nutzung der verfügbaren Rechenzeit bei der Modellentwicklung. Daher wurde im Rahmen des Projekts ein spezieller mehrsprachiger Tokenizer entwickelt, ein zentrales Element großer Sprachmodelle, um die Verteilung der Sprachen zu berücksichtigen. Die Aufgabe eines Tokenizers ist es, Wörter in einzelne Wortbestandteile zu zerlegen - je weniger Token, desto (energie-)effizienter und schneller generiert ein Sprachmodell die Antwort.

Die Ergebnisse zeigen, dass mehrsprachige Sprachmodelle, die von Grund auf mit einem mehrsprachigen Tokenizer trainiert wurden, in mehrsprachigen KI-Anwendungen energie- und kosteneffizienter trainiert und betrieben werden können.

Die Datengrundlage für die Darstellung der prozentualen Mehrkosten ist eine Untersuchung der Fertility. Diese Kennzahl misst, in wie viele Token ein Wort zerlegt wird. Eine geringe Fertility des Tokenizers reduziert die benötigte Rechenleistung eines Sprachmodells in GigaFLOPS und senkt damit die Nutzungskosten. Das Verhältnis der Fertility verschiedener Tokenizer ist im Vergleich zur englischen Llama 3-Tokenisierung dargestellt. Dokumente mit gleichem Inhalt in verschiedenen Sprachen wurden von Tokenizern verarbeitet und die durchschnittliche Fertility wurde berechnet.

Die Studien haben gezeigt, dass große Sprachmodelle aufgrund der Tokenisierung in fast allen nicht-englischen EU-Sprachen eine unverhältnismäßig hohe Rechenleistung erfordern. Dies wirkt sich direkt auf die Nutzungskosten des Sprachmodells aus, da die Nutzungskosten auf der Grundlage der Anzahl der Eingabe- und Ausgabe-Token berechnet werden. Experimente zur Tokenisierung von deutschen Texten im Rahmen von OpenGPT-X zeigen deutlich, dass Sprachmodelle, die auf einem mehrsprachig trainierten Tokenizer basieren, deutlich weniger Rechenleistung benötigen.

Das Diagramm zeigt die zusätzliche Rechenleistung, die erforderlich ist, um einen nicht-englischen Text mit dem zu dem Sprachmodell zugehörigen Tokenizer zu verarbeiten (in % im Vergleich zu Llama 3). Teuken-Modelle benötigen im Vergleich die geringste Menge an zusätzlicher Rechenleistung und verursachen somit den geringsten Aufpreis für multlinguale Anfragen an das Modell. 

Andere Sprachmodelle erzeugen ein Vielfaches an zusätzlichen Kosten für nicht-englische Texte, z. B. 148 Prozent im Falle von Ungarisch oder 449 Prozent (nicht gezeigt) für Griechisch mit dem Sprachmodell Mistral-7B-v03. Wird ein deutscher Text mit dem Teuken-Tokenizer tokenisiert, fallen nur 22 Prozent Mehrkosten an (im Vergleich zu seinem englischen Pendant mit Llama 3). Die Effizienzsteigerung macht sich besonders bei europäischen Sprachen mit langen Wörtern wie Deutsch, Finnisch oder Ungarisch bemerkbar. Das bedeutet, dass bei gleicher Modellgröße und Leistung Kosten gespart und der Energieverbrauch reduziert werden kann. Darüber hinaus bietet das Sprachmodell die Möglichkeit, längere Abfragen zu bearbeiten, die sonst die begrenzte Kontextlänge des Modells überschreiten würden.