Benchmarks sind ein wichtiger Indikator, um die generelle Leistungsfähigkeit von Modellen zu messen. Ob Teuken ein geeignetes Modell für den jeweiligen Anwendungsfall im Unternehmen ist, findet man am besten durch den Einsatz in der jeweiligen Anwendung heraus. Sie können uns gerne kontaktieren, wir unterstützen Sie dabei.
»Teuken 7B« ist in zwei Versionen erhältlich
»Teuken 7B-instruct-research-v0.4« kann für Forschungszwecke verwendet werden, »Teuken 7B-instruct-commercial-v0.4« steht Unternehmen für kommerzielle Zwecke unter der Lizenz »Apache 2.0« zur Verfügung.
»Teuken 7B-instruct-v0.4« zeigt in einer Vielzahl von EU-Sprachen eine gleichbleibend gute Leistung. Um dies zu erreichen, wurde das zugrunde liegende Basismodell nicht primär auf Englisch trainiert, sondern von Grund auf mehrsprachig in allen 24 EU-Sprachen.
»Teuken 7B-instruct-commercial-v.04« ist in etwa vergleichbar mit der Forschungsversion, obwohl die Forschungsversion bei den Benchmarks leicht bessere Ergebnisse im Bereich von ein bis zwei Prozent erzielt. Der Grund dafür ist, dass einige der für das »Instruction Tuning« verwendeten Datensätze die kommerzielle Nutzung ausschließen und daher in der Apache-2.0-Version nicht verwendet wurden.
Modelle vergleichen: Unser European LLM Leaderboard
Mit Hilfe unseres European LLM Leaderboard ist es erstmals möglich, die Leistung von LLMs über fast alle EU-Sprachen hinweg zu vergleichen, anstatt wie bisher nur englischsprachige Evaluierungsdatensätze zu verwenden. Zu diesem Zweck wurden zunächst u.a. die Benchmark-Datensätze HellaSwag, ARC und TruthfulQA mittels hochwertiger maschineller Übersetzung in insgesamt 21 Sprachen übersetzt.
Welche Benchmarks haben wir für den Vergleich unserer Modelle verwendet? Und was bedeuten sie?
- Im HellaSwag-Datensatz werden Multiple-Choice-Fragen zur Vervollständigung von Sätzen mit hohem Verwechslungspotenzial gestellt, um das Alltagswissen und die narrative Kohärenz von Modellen zu bewerten.
- Im ARC-Datensatz werden Multiple-Choice-Fragen gestellt, um die Fähigkeiten von KI-Modellen in Bezug auf verschiedene Arten von Wissen und Denkprozessen zu bewerten.
- Der TruthfulQA-Datensatz misst den Wahrheitsgehalt von Antworten, die von Sprachmodellen generiert werden, und dient der Unterscheidung zwischen wahren und falschen Informationen.
- GSM8K ist ein Benchmark mit 8.000 mathematischen Wortproblemen zur Bewertung der Fähigkeit eines Sprachmodells, mathematisches Denken und Problemlösen auf Grundschulniveau zu beherrschen.
- MMLU ist ein breit angelegter Benchmark, bei dem Modelle in mehr als 50 Fächern getestet werden und ihr Wissen in Bereichen von Geistes- bis zu Naturwissenschaften auf verschiedenen akademischen Niveaus bewertet wird.
Im Folgenden stellen wir »Teuken 7B-instruct-research-v0.4« im Detail vor.