Teuken Model Card und multilinguale Benchmarks

Benchmarks sind ein wichtiger Indikator, um die generelle Leistungsfähigkeit von Modellen zu messen. Ob »Teuken 7B« ein geeignetes Modell für den jeweiligen Anwendungsfall im Unternehmen ist, finden Sie am besten durch den Einsatz in der jeweiligen Anwendung heraus.

Sie können uns gerne kontaktieren, wir unterstützen Sie dabei.

Modelle vergleichen: Unser European LLM Leaderboard

Mit Hilfe unseres European LLM Leaderboard ist es erstmals möglich, die Leistung von LLMs über fast alle EU-Sprachen hinweg zu vergleichen, anstatt wie bisher nur englischsprachige Evaluierungsdatensätze zu verwenden. Zu diesem Zweck wurden zunächst u.a. die Benchmark-Datensätze HellaSwag, ARC und TruthfulQA mittels hochwertiger maschineller Übersetzung in insgesamt 21 Sprachen übersetzt.

»Teuken 7B-instruct-v0.4« zeigt in einer Vielzahl von EU-Sprachen eine gleichbleibend gute Leistung. Um dies zu erreichen, wurde das zugrunde liegende Basismodell nicht primär auf Englisch trainiert, sondern von Grund auf mehrsprachig in allen 24 EU-Sprachen.
»Teuken 7B-instruct-commercial-v.04« ist in etwa vergleichbar mit der Forschungsversion, wobei die Forschungsversion bei den Benchmarks leicht bessere Ergebnisse im Bereich von ein bis zwei Prozent erzielt.
Das Update »Teuken 7B-instruct-v0.6« weist im Vergleich zu »Teuken 7B-instruct-v.04« signifikante Verbesserungen auf, dazu gehören eine erhöhte Leistungsfähigkeit, verbesserte Robustheit und Zuverlässigkeit sowie eine erweiterte Anwendungsflexibilität.
Mit dem Update wurde auch erstmals das Basismodell »Teuken 7B-base-v0.6« veröffentlicht.

Welche Benchmarks haben wir für den Vergleich der Modelle verwendet – und was bedeuten sie?

Im HellaSwag-Datensatz werden Multiple-Choice-Fragen zur Vervollständigung von Sätzen mit hohem Verwechslungspotenzial gestellt, um das Alltagswissen und die narrative Kohärenz von Modellen zu bewerten.
Im ARC-Datensatz werden Multiple-Choice-Fragen gestellt, um die Fähigkeiten von KI-Modellen in Bezug auf verschiedene Arten von Wissen und Denkprozessen zu bewerten.
Der TruthfulQA-Datensatz misst den Wahrheitsgehalt von Antworten, die von Sprachmodellen generiert werden, und dient der Unterscheidung zwischen wahren und falschen Informationen.
GSM8K ist ein Benchmark mit 8.000 mathematischen Wortproblemen zur Bewertung der Fähigkeit eines Sprachmodells, mathematisches Denken und Problemlösen auf Grundschulniveau zu beherrschen.
MMLU ist ein breit angelegter Benchmark, bei dem Modelle in mehr als 50 Fächern getestet werden und ihr Wissen in Bereichen von Geistes- bis zu Naturwissenschaften auf verschiedenen akademischen Niveaus bewertet wird.

Benchmarks von »Teuken 7B-instruct-research-v0.4«

Neben Code enthalten die Teuken-Modelle etwa 50 Prozent nicht-englische Daten aus 23 europäischen Ländern und nur etwa 40 Prozent englische Pretraining-Daten. Damit unterscheidet sich »Teuken 7B-v0.4« von den meisten bisher verfügbaren mehrsprachigen Modellen, die erst im Zuge eines fortgeführten Pretrainings oder Finetunings um mehrsprachige Daten erweitert wurden. Meta-Llama-3.1-8B wurde beispielsweise nur mit acht Prozent nicht-englischen Daten trainiert, was sich deutlich von der Sprachzusammensetzung der Pretraining-Daten von Teuken unterscheidet.

Das Diagramm zeigt den Vergleich von »Teuken 7B-instruct-research-v0.4« mit instruction-tuned Open-Source-LLMs mit sieben bis acht Milliarden Parametern auf der Grundlage ausgewählter Benchmarks unter Angabe der Leistung (Genauigkeit). Die Auswahl umfasste

Mistral-7B-Instruct-v0.3 (trainiert auf 8 T Token)

Meta-Llama-3.1-8B-Instruct (trainiert auf 15 T Token)

Salamandra-7b-Instruct (trainiert auf 7,8 T Token)

Occiglot-7b-eu5-Instruct (basiert auf Mistral-7B-v0.1, das auf 8 T Token trainiert wurde und auf 293 B Token zusätzlicher mehrsprachiger und Code-Daten trainiert wurde)

Pharia-1-LLM-7B-control-aligned (trainiert auf 7,7 T Token)

Die Evaluierungsergebnisse der einzelnen Sprachen der Modelle (ohne Feintuning) sind hier als Durchschnittswert über 21 Sprachen dargestellt, wobei Maltesisch, Kroatisch und Irisch weggelassen wurden, da sie nicht in ausreichender Qualität automatisch übersetzt werden konnten.

Das Balkendiagramm zeigt die Leistung von »Teuken 7B-instruct-research-v0.4« in den multilingualen Benchmarks ARC, HellaSwag und TruthfulQA im Vergleich zu anderen Open-Source-Modellen ähnlicher Größe. Die Balken zeigen die Performance für den jeweiligen Benchmark über 21 europäische Sprachen gemittelt, und den Mittelwert aller drei Benchmarks. Bei dieser Auswahl von Benchmarks liegt »Teuken 7B-instruct-research-v0.4« im Durchschnitt vor allen anderen Modellen. Bei den einzelnen Benchmarks ARC und HellaSwag liegt Teuken an zweiter Stelle hinter Salamandra-7b-instruct, und bei TruthfulQA an zweiter Stelle hinter Mistral-7B-Instruct-v0.3. Es ist bemerkenswert, dass diese Modelle auf 7,8 T bzw. 8 T Token trainiert wurden.

Obwohl unser Modell in den linguistischen und wissensbasierten Aufgaben gut abschneidet, gibt es noch Entwicklungspotenzial bei den Benchmarks GSM8K und MMLU. Dies wird in zukünftigen Trainingsläufen angegangen werden.

Um das Modell im Benchmarking weiter zu verbessern, sind nicht nur ausreichend hochwertige Trainingsdaten wichtig, sondern es muss auch genügend Rechenkapazität auf speziellen Hochleistungsrechnern für die Vorverarbeitung der Trainingsdaten, wissenschaftliche Experimente und Trainingsmodelle zur Verfügung stehen. Im Rahmen von OpenGPT-X wurden in Deutschland rund zwei Millionen Stunden Rechenzeit von den deutschen HPC-Zentren zur Verfügung gestellt. Dank der erfolgreichen Beantragung von Rechenzeit auf MareNostrum kann das Training auch in Zukunft auf EuroHPC-Systemen fortgesetzt werden.

Trotz eines Instruction Tuning können große Sprachmodelle Inhalte generieren, die unangemessen, beleidigend oder schädlich sind. Unsere Auswertung von Bias und Toxizität zeigt, dass »Teuken 7B-instruct-research-v0.4« im Vergleich zu anderen Modellen im Mittelfeld liegt, was bedeutet, dass bei den Benchmarks Bias und Toxizität noch Entwicklungspotenzial besteht.

Das Diagramm zeigt die Standardabweichung der Mittelwerte über 21 Sprachen für die jeweiligen Benchmarks. Je niedriger die Standardabweichung ist, desto konsistenter ist die Leistung des Modells für die Aufgabe in allen untersuchten Sprachen. Ein niedriger Wert bedeutet also, dass das Modell in seiner Leistung über alle Sprachen hinweg stabiler und zuverlässiger ist.

Die Ergebnisse zeigen, dass »Teuken 7B-instruct-research-v0.4« nach Salamandra-7b-instruct mit HellaSwag und ARC an zweiter Stelle liegt. Mit TruthfulQA erreichen alle Modelle eine vergleichsweise geringe Standardabweichung. Die geringste Standardabweichung in TruthfulQA erreicht Meta-Llama-3.1-8B, dicht gefolgt von »Teuken 7B-instruct-research-v0.4«.

Im Durchschnitt aller drei Aufgaben hat Salamandra-7b-instruct die niedrigste Standardabweichung, wobei »Teuken 7B-instruct-research-v0.4« mit nur geringem Abstand die zweitniedrigste Standardabweichung aufweist. Diese Ergebnisse deuten darauf hin, dass Modelle, die mit einem mehrsprachigen Datensatz trainiert wurden, in verschiedenen Sprachen zuverlässiger arbeiten. Diese Hypothese wurde auch durch andere Benchmarks bestätigt. Umgekehrt zeigen andere Modelle für einzelne Sprachen Ausreißer nach oben oder nach unten von der durchschnittlichen Leistung.

Weitere Forschungsarbeiten zu mehrsprachigen Modellen sind erforderlich, um den hier beobachteten Effekt zu untersuchen und zu verifizieren.

Das OpenGPT-X Projekt legte von Anfang an besonderen Wert auf die effiziente Nutzung der verfügbaren Rechenzeit bei der Modellentwicklung. Daher wurde im Rahmen des Projekts ein spezieller mehrsprachiger Tokenizer entwickelt, ein zentrales Element großer Sprachmodelle, um die Verteilung der Sprachen zu berücksichtigen. Die Aufgabe eines Tokenizers ist es, Wörter in einzelne Wortbestandteile zu zerlegen - je weniger Token, desto (energie-)effizienter und schneller generiert ein Sprachmodell die Antwort.

Die Ergebnisse zeigen, dass mehrsprachige Sprachmodelle, die von Grund auf mit einem mehrsprachigen Tokenizer trainiert wurden, in mehrsprachigen KI-Anwendungen energie- und kosteneffizienter trainiert und betrieben werden können.

Die Datengrundlage für die Darstellung der prozentualen Mehrkosten ist eine Untersuchung der Fertility. Diese Kennzahl misst, in wie viele Token ein Wort zerlegt wird. Eine geringe Fertility des Tokenizers reduziert die benötigte Rechenleistung eines Sprachmodells in GigaFLOPS und senkt damit die Nutzungskosten. Das Verhältnis der Fertility verschiedener Tokenizer ist im Vergleich zur englischen Llama 3-Tokenisierung dargestellt. Dokumente mit gleichem Inhalt in verschiedenen Sprachen wurden von Tokenizern verarbeitet und die durchschnittliche Fertility wurde berechnet.

Die Studien haben gezeigt, dass große Sprachmodelle aufgrund der Tokenisierung in fast allen nicht-englischen EU-Sprachen eine unverhältnismäßig hohe Rechenleistung erfordern. Dies wirkt sich direkt auf die Nutzungskosten des Sprachmodells aus, da die Nutzungskosten auf der Grundlage der Anzahl der Eingabe- und Ausgabe-Token berechnet werden. Experimente zur Tokenisierung von deutschen Texten im Rahmen von OpenGPT-X zeigen deutlich, dass Sprachmodelle, die auf einem mehrsprachig trainierten Tokenizer basieren, deutlich weniger Rechenleistung benötigen.

Das Diagramm zeigt die zusätzliche Rechenleistung, die erforderlich ist, um einen nicht-englischen Text mit dem zu dem Sprachmodell zugehörigen Tokenizer zu verarbeiten (in % im Vergleich zu Llama 3). Teuken-Modelle benötigen im Vergleich die geringste Menge an zusätzlicher Rechenleistung und verursachen somit den geringsten Aufpreis für multlinguale Anfragen an das Modell. 

Andere Sprachmodelle erzeugen ein Vielfaches an zusätzlichen Kosten für nicht-englische Texte, z. B. 148 Prozent im Falle von Ungarisch oder 449 Prozent (nicht gezeigt) für Griechisch mit dem Sprachmodell Mistral-7B-v03. Wird ein deutscher Text mit dem Teuken-Tokenizer tokenisiert, fallen nur 22 Prozent Mehrkosten an (im Vergleich zu seinem englischen Pendant mit Llama 3). Die Effizienzsteigerung macht sich besonders bei europäischen Sprachen mit langen Wörtern wie Deutsch, Finnisch oder Ungarisch bemerkbar. Das bedeutet, dass bei gleicher Modellgröße und Leistung Kosten gespart und der Energieverbrauch reduziert werden kann. Darüber hinaus bietet das Sprachmodell die Möglichkeit, längere Abfragen zu bearbeiten, die sonst die begrenzte Kontextlänge des Modells überschreiten würden.

Benchmarks von »Teuken 7B-instruct-v0.6«

Erhöhte Leistungsfähigkeit
Das Modell zeigt eine im Durchschnitt um 7 Prozent verbesserte Leistung gegenüber »Teuken 7B-instruct-commercial-v.04«. Dies führt zu einer präziseren und konsistenteren Sprachgenerierung.

Im Vergleich mit »Mistral-7B-Instruct-v0.3« liegt »Teuken 7B-instruct-v0.6« in den Tasks ARC, GSM8K, HellaSwag, MMLU und TruthfulQA im Durchschnitt vor »Mistral-7B-Instruct-v0.3«.

Verbesserte Robustheit und Zuverlässigkeit
Dank einer weiterentwickelten Feinabstimmung und robusteren Trainingsmethoden erzielt das Modell zuverlässigere Ergebnisse, selbst bei komplexen oder vielschichtigen Eingabeanfragen.

Erweiterte Anwendungsflexibilität
Durch optimierte Instruct-Features kann das Modell effizienter auf diverse Aufgabenstellungen reagieren.

Lizenz: CC BY-NC 4.0

Mehr Infos zu diesem Modell und dem Basismodell in der Model Card.

Modelle vergleichen: Unser European LLM Leaderboard

Welche Benchmarks haben wir für den Vergleich der Modelle verwendet – und was bedeuten sie?

Model Card

Leaderboard

Download

Benchmarks von »Teuken 7B-instruct-research-v0.4«

Benchmarks von »Teuken 7B-instruct-v0.6«