OpenGPT-X: Teuken 7B

Das europäische, offene, multilinguale KI-Sprachmodell

Unternehmen aller Branchen können KI-Anwendungen jetzt mit »Teuken 7B« umsetzen – das große KI-Sprachmodell des Forschungsprojekts OpenGPT-X steht auf Hugging Face kostenfrei zum Download bereit: »Teuken 7B-instruct-v0.4« ist von Grund auf mit den 24 Amtssprachen der EU trainiert und sieben Milliarden Parameter groß. Entwicklerinnen und Entwickler aus Forschung und Unternehmen können »Teuken 7B-instruct-v0.4« herunterladen und es als Basis für ihre Anwendungen anpassen, ergänzen und weiter finetunen. Nach diesem Schritt entsteht ein Modell, das im Unternehmen für spezielle Anwendungsfälle optimiert ist.

»Teuken 7B« gibt es in folgenden Versionen:

  • für Forschungszwecke:
    »Teuken 7B-instruct-research-v0.4«
  • für nicht-kommerzielle Zwecke:
    »Teuken 7B-instruct-v0.6«
    »Teuken 7B-base-v0.6«
  • für Unternehmen zur kommerziellen Nutzung unter der Lizenz »Apache 2.0«:
    »Teuken 7B-instruct-commercial-v0.4«
     
     

Neben den beiden Fraunhofer-Instituten IAIS und IIS und dem Forschungszentrum Jülich haben der KI Bundesverband, die TU Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), IONOS, Aleph Alpha, ControlExpert sowie der Westdeutsche Rundfunk (WDR) als Partner an OpenGPT-X mitgearbeitet.

 

Zum kostenfreien Webinar anmelden

Multilingual

  • Unser Modell ist von Grund auf mehrsprachig in allen 24 EU-Sprachen trainiert.
  • Es enthält ca. 50 Prozent nicht-englische Pretraining-Daten.
  • Der Leistungsvergleich zeigt: Das Modell liefert ähnlich gute Ergebnisse über die Bandbreite der Sprachen hinweg.
  • Damit spiegelt es europäische Eigenarten, Normen und Werte wider und ermöglicht effektive vielsprachige Kommunikation.

 

Offen

  • Das Modell kann kostenfrei in verschiedenen Versionen und Lizenzen auf Hugging Face heruntergeladen werden.
  • »Teuken 7B« kann in den Versionen 0.4 und 0.6 in der Forschung genutzt und weiterentwickelt werden.
  • Mit der Version »Teuken 7B-instruct-commercial-v0.4« können kommerzielle KI-Anwendungen umgesetzt werden.
  • Sensible Daten können im Unternehmen bleiben.

Science-driven

  • Von Wissenschaftlerinnen und Wissenschaftlern für die kommerzielle Anwendung entwickelt.
  • Unser multilingualer Tokenizer emöglicht besonders (energie-)effizientes Training und Betrieb von multilingualen Anwendungen.
  • Unser European Leaderboard vergleicht und testet verschiedene Modelle auf multilinguale Aufgabenstellungen.
  • Podcast Knowledge Science: Mehdi Ali und Michael Fromm vom Fraunhofer IAIS erläutern die Entwicklung mehrsprachiger europäischer KI-Systeme.

Anwendung im Unternehmen

Download

Entwicklerinnen und Entwickler können »Teuken 7B« auf Hugging Face kostenfrei herunterladen.  

Webinar / auf Deutsch

Teuken 7B – GenAI in der Medien- und Verlagsbranche
22. August 2025 / 11:00 bis 11:45 Uhr
anmelden


Teuken 7B – GenAI im öffentlichen Sektor
19. September 2025 / 11:00 bis 11:45 Uhr
anmelden

Webinar / auf Englisch

Das letzte Webinar fand am 9. Mai 2025 statt.

Wir planen weitere Termine und geben diese hier bekannt.

Mit uns starten

Wir passen »Teuken 7B« auf Ihre Unternehmensprozesse an. Informieren Sie sich zu unseren Angeboten und vereinbaren Sie einen Beratungstermin.

Technische Infos & Forschung

 

Model Cards und Benchmarks

Technische Infos zum Modell und zur Anwendung. Grafiken und technische Erläuterungen im Vergleich mit anderen Modellen.

 

Use Cases

Hier finden Sie eine exemplarische Sammlung von konkreten Anwendungbespielen, z. B. aus den Branchen Industrie, Healthcare, Legal, Finance und Medien.

 

Publikationen und Code Repositories

Forschungsergebnisse zu multilingualen Sprachmodellen

 

LLM-Community

Wir beantworten technische und wissenschaftliche Fragen der Community und bieten Raum für Feedback und Austausch über den OpenGPT-X-Discord-Server.

FAQ zu »Teuken 7B«

  • »Teuken 7B« steht in folgenden Versionen zur Verfügung:

    • »Teuken 7B-instruct-research-v0.4« für Forschungszwecke.
    • »Teuken 7B-instruct-commercial-v0.4« für Unternehmen zur kommerziellen Nutzung unter der Lizenz »Apache 2.0«.
      Das Modell wurde durch ein »Instruction Tuning« bereits für den Chat optimiert. »Teuken 7B-instruct-commercial-v.04« ist in seiner Leistungsfähigkeit vergleichbar mit der Forschungsversion »Teuken 7B-instruct-research-v0.4«, wobei die Forschungsversion bei den Benchmarks um ein bis zwei Prozent bessere Ergebnisse erzielt.
    • »Teuken 7B-instruct-v0.6« und »Teuken 7B-base-v0.6« für nicht-kommerzielle Zwecke unter der Lizenz »CC BY-NC 4.0«. Das Update weist im Vergleich zu »Teuken 7B-instruct-v.04« signifikante Verbesserungen auf, dazu gehören eine erhöhte Leistungsfähigkeit, verbesserte Robustheit und Zuverlässigkeit sowie eine erweiterte Anwendungsflexibilität.
  • »Teuken 7B« kann kostenfrei auf Hugging Face heruntergeladen werden.

  • Speziell für Unternehmen besteht die Möglichkeit an einem kostenfreien Webinar teilzunehmen, in denen Fraunhofer-Wissenschaftlerinnen und -Wissenschaftler erläutern, welche Anwendungen mit entsprechender Weiterverarbeitung auf Basis von »Teuken 7B« realisiert werden können.

  • »Teuken 7B-instruct-commercial-v0.4« ist multilingual und wurde durch ein »Instruction Tuning« für den Chat optimiert, ist also als mehrsprachiger Chatbot einsetzbar, z. B. im internationalen Kundenservice oder um Mitarbeitenden Unternehmenswissen zugänglich zu machen. 

    Folgende weitere Anwendungen können mit »Teuken 7B-instruct-commercial-v0.4« umgesetzt werden:

    Einsatzbereiche:

    • Dokumente zusammenfassen
    • Texte generieren
    • Informationen aus Texten extrahieren

    Um das Modell auf die eigenen Unternehmenszwecke anzupassen, kann »Teuken 7B-instruct-commercial-v0.4« durch Continued Pretraining, Finetuning, Instruction Tuning, Model Merging etc. weiterverarbeitet werden. So entsteht ein Modell, das für die individuellen Anwendungsfälle im Unternehmen optimiert ist.  

  • Wählen Sie die Version »Teuken 7B-instruct-commercial-v0.4«. Sie können dieses Modell für KI-Anwendungen kommerziell nutzen und es dafür auf die eigenen Unternehmenszwecke anpassen und zusätzlich mit eigenen Daten durch Continued Pretraining, Finetuning, Instruction Tuning, Model Merging etc. weiterverarbeiteten.

    Das Modell schneidet im Leistungsvergleich mit anderen Open Source-Modellen gut ab, hat aber noch Entwicklungspotenzial in den Bereichen logisches Denken, Codieren und Mathematik. Zudem kann »Teuken 7B«, wie andere große Sprachmodelle auch, Inhalte generieren, die unangemessen, beleidigend oder schädlich sind. 

  • »Teuken 7B-instruct« ist ein Chatbot, der vor allem für Unternehmensanwendungen und Forschungsvorhaben gedacht ist. Entwicklerinnen und Entwickler aus Unternehmen und der Wissenschaftscommunity können damit ihre individuellen Chatanwendungen entwickeln. Um das Modell auf die eigenen Unternehmenszwecke anzupassen, kann »Teuken 7B-instruct-commercial-v0.4« zusätzlich mit eigenen Daten durch Continued Pretraining, Finetuning, Instruction Tuning, Model Merging etc. weiterverarbeitet werden.

  • Ja. Unternehmen können »Teuken 7B-instruct-commercial-v0.4« unter der Lizenz »Apache 2.0« für ihre KI-Anwendungen kommerziell nutzen.

  • Basismodelle sind besonders anfällig für das Generieren von unangemessen, beleidigenden oder schädlichen Inhalten. Zugleich bieten Basismodelle den Vorteil, dass sich diese bei einem fachlich richtigen und verantwortungsvollen Einsatz durch Finetuning und Instruction Tuning zu leistungsfähigen Spezialmodellen entwickeln lassen.

    Das Basismodell in der Version Teuken 7B-base-v0.6 kann hier für die Forschung sowie für die private, bildungsrelevante und nicht-kommerzielle Nutzung heruntergeladen werden.

  • Aktuell nein. Der EU AI Act findet erst ab August 2025 Anwendung. KI-Modelle, die vor diesem Zeitpunkt in Verkehr gebracht wurden, müssen den Anforderungen des EU AI Act erst ab August 2027 entsprechen (Bestandsschutz).

  • Das Forschungsprojekt OpenGPT-X ist abgeschlossen.

    Da es bei »Teuken 7B« um ein offenes LLM handelt, gehen wir zugleich davon aus, dass für unterschiedliche Anwendungszwecke angepasste oder spezialisierte Versionen des Modells aus der Wissenschaftscommunity oder auch aus Unternehmen heraus entstehen.

  • Unsere Wissenschaftlerinnen und Wissenschaftler stehen mit der LLM-Community über den OpenGPT-X-Discord-Server in Kontakt. Hier ist auch der Ort für Fragen und Feedback rund um das Modell.

OpenGPT-X: Digitale Souveränität für Europa

Das OpenGPT-X-Projekt mit seinen zehn Partnern startete am 1. Januar 2022 mit einer Förderung des Bundesministeriums für Wirtschaft und Klimaschutz (BMWK) in Höhe von rund 14 Millionen Euro und endete am 31. März 2025. Unter der Leitung von Fraunhofer IAIS und Fraunhofer IIS erforschte das Projekt die gesamte Wertschöpfungskette der Generativen KI: Von der hochskalierbaren, GPU-basierten Infrastruktur und den Daten für das Training großer Sprachmodelle, über die Entwicklung der Modelle, bis hin zur produktiven Anwendung in Form von Prototypen und Proof of Concepts (PoCs). Übergreifendes Ziel des Projektes war es, ein eigenes großes KI-Sprachmodell zu entwickeln, das Forschung und Unternehmen zur Verfügung steht und auf die multilingualen Bedürfnisse Europas ausgerichtet ist.

Mit der Veröffentlichung von »Teuken 7B« hat das Projekt dieses Ziel erreicht und stellt damit eine aus der öffentlichen Forschung stammende Alternative für zukünftige wissenschaftliche Untersuchungen und wirtschaftliche Anwendungen der Generativen KI zur Verfügung. 

 

 

Teuken-7B Trennerbild

Webinar zu »Teuken 7B«

Wir empfehlen allen Interessierten die Teilnahme an unserem kostenlosen Webinar.

Das Webinar ist eine Einführung zu Teuken und LLMs.

Die nächsten Termine:

Teuken 7B – GenAI in der Medien- und Verlagsbranche
22. August 2025 / 11:00 bis 11:45 Uhr
anmelden

Teuken 7B – GenAI im öffentlichen Sektor
19. September 2025 / 11:00 bis 11:45 Uhr
anmelden

 

Wenn Sie ein konkretes Anliegen haben, können Sie auch direkt mit einem Beratungstermin einsteigen. Nutzen Sie dafür das folgende Formular

Beratungstermin zu »Teuken 7B«

* Pflichtfelder