OpenGPT-X: Teuken-7B

Das europäische, offene, multilinguale KI-Sprachmodell

Unternehmen aller Branchen können KI-Anwendungen jetzt mit »Teuken 7B« umsetzen – das große KI-Sprachmodell des Forschungsprojekts OpenGPT-X steht ab sofort Open Source auf Hugging Face kostenfrei zum Download bereit: »Teuken 7B-instruct-v0.4« ist von Grund auf mit den 24 Amtssprachen der EU trainiert und sieben Milliarden Parameter groß. Entwicklerinnen und Entwickler aus Forschung und Unternehmen können »Teuken 7B« herunterladen und es als Basis für ihre Anwendungen anpassen, ergänzen und weiter finetunen. Nach diesem Schritt entsteht ein Modell, das im Unternehmen für spezielle Anwendungsfälle optimiert ist.

»Teuken 7B« ist in zwei Versionen erhältlich: »Teuken 7B-instruct-research-v0.4« kann für Forschungszwecke verwendet werden, »Teuken 7B-instruct-commercial-v0.4« steht Unternehmen für kommerzielle Zwecke unter der Lizenz »Apache 2.0« zur Verfügung. Das Modell wurde durch ein »Instruction Tuning« bereits für den Chat optimiert.  
 

Neben den beiden Fraunhofer-Instituten IAIS und IIS und dem Forschungszentrum Jülich haben der KI Bundesverband, die TU Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), IONOS, Aleph Alpha, ControlExpert sowie der Westdeutsche Rundfunk (WDR) als Partner an OpenGPT-X mitgearbeitet.

Multilingual

  • Unser Modell ist von Grund auf mehrsprachig in allen 24 EU-Sprachen trainiert.
  • Es enthält ca. 50 Prozent nicht-englische Pretraining-Daten.
  • Der Leistungsvergleich zeigt: Das Modell liefert ähnlich gute Ergebnisse über die Bandbreite der Sprachen hinweg.
  • Damit spiegelt es europäische Eigenarten, Normen und Werte wider und ermöglicht effektive vielsprachige Kommunikation.

 

Open Source

  • Das Modell kann kostenfrei auf Hugging Face heruntergeladen werden.
  • Die Lizenz »Apache 2.0« erlaubt es, »Teuken 7B-instruct-commercial-v0.4« anzupassen, weiterzuentwickeln und für kommerzielle KI-Anwendungen zu nutzen.
  • Sensible Daten können im Unternehmen bleiben.
  • Die Forschungslizenz erlaubt es, »Teuken 7B-instruct-research-v0.4« für die Forschung und Erprobung frei zu nutzen und weiterzuentwickeln.

Science-driven

  • Von Wissenschaftlerinnen und Wissenschaftlern für die kommerzielle Anwendung entwickelt.
  • Unser multilingualer Tokenizer emöglicht besonders (energie-)effizientes Training und Betrieb von multilingualen Anwendungen.
  • Unser European Leaderboard vergleicht und testet verschiedene Modelle auf multilinguale Aufgabenstellungen.
  • Podcast Knowledge Science: Mehdi Ali und Michael Fromm vom Fraunhofer IAIS erläutern die Entwicklung mehrsprachiger europäischer KI-Systeme.

Anwendung von Teuken-7B im Unternehmen

Download

Entwicklerinnen und Entwickler können hier »Teuken 7B« unter der Lizenz »Apache 2.0« (oder unter einer Forschungslizenz) auf Hugging Face kostenfrei herunterladen.  

Webinar / auf Deutsch

Erfahren Sie von den Expertinnen und Experten, was mit »Teuken 7B« möglich ist.  

  • 06. Juni 2025, 11:00 bis 11:45 Uhr
  • für Unternehmen / kostenfrei

Webinar / auf Englisch

Erfahren Sie von den Expertinnen und Experten, was mit »Teuken 7B« möglich ist.  

  • 9. Mai 2025, 11:00 bis 11:45 Uhr
  • für Unternehmen / kostenfrei

Mit uns starten

Wir passen »Teuken 7B« auf Ihre Unternehmensprozesse an. Informieren Sie sich zu unseren Angeboten und vereinbaren Sie einen Beratungstermin.

Technische Infos & Forschung

 

Model Cards und Benchmarks

Technische Infos zum Modell und zur Anwendung. Grafiken und technische Erläuterungen im Vergleich mit anderen Modellen.

 

Use Cases

Hier finden Sie eine exemplarische Sammlung von konkreten Anwendungbespielen, z. B. aus den Branchen Industrie, Healthcare, Legal, Finance und Medien.

 

Publikationen und Code Repositories

Forschungsergebnisse zu multilingualen Sprachmodellen

 

LLM-Community

Wir beantworten technische und wissenschaftliche Fragen der Community und bieten Raum für Feedback und Austausch über den OpenGPT-X-Discord-Server.

FAQ zu Teuken-7B

  • »Teuken 7B« steht in zwei Lizenz-Versionen kostenfrei zur Verfügung: »Teuken 7B-instruct-research-v0.4« kann von Wissenschaftscommunity und Unternehmen für Forschungszwecke verwendet werden, »Teuken 7B-instruct-commercial-v0.4« steht Unternehmen für kommerzielle Zwecke unter der Lizenz »Apache 2.0« zur Verfügung. 

    »Teuken 7B-instruct-commercial-v.04« ist in seiner Leistungsfähigkeit vergleichbar mit der Forschungsversion, wobei die Forschungsversion bei den Benchmarks um ein bis zwei Prozent bessere Ergebnisse erzielt. Der Grund dafür ist, dass einige in der Forschungsversion verwendeten Datensätze eine kommerzielle Nutzung ausschließen und daher in der Version für Unternehmen nicht verwendet wurden. 

  • »Teuken 7B« steht kostenfrei und Open Source auf Hugging Face zum Download zur Verfügung.

  • Speziell für Unternehmen besteht die Möglichkeit an einem kostenfreien Webinar teilzunehmen, in denen Fraunhofer-Wissenschaftler*innen erläutern, welche Anwendungen mit entsprechender Weiterverarbeitung auf Basis von »Teuken 7B« realisiert werden können.

  • »Teuken 7B« ist multilingual und wurde durch ein »Instruction Tuning« für den Chat optimiert, ist also als mehrsprachiger Chatbot einsetzbar, z. B. im internationalen Kundenservice oder um Mitarbeitenden Unternehmenswissen zugänglich zu machen. 

    Folgende weitere Anwendungen können mit »Teuken-7B« umgesetzt werden:

    Einsatzbereiche:

    • Dokumente zusammenfassen
    • Texte generieren
    • Informationen aus Texten extrahieren

    Um das Modell auf die eigenen Unternehmenszwecke anzupassen, kann »Teuken 7B« durch Continued Pretraining, Finetuning, Instruction Tuning, Model Merging etc. weiterverarbeitet werden. So entsteht ein Modell, das für die individuellen Anwendungsfälle im Unternehmen optimiert ist.  

  • Um das Modell auf die eigenen Unternehmenszwecke anzupassen, kann »Teuken 7B-instruct-commercial« zusätzlich mit eigenen Daten durch Continued Pretraining, Finetuning, Instruction Tuning, Model Merging etc. weiterverarbeitet werden.

    Das Modell schneidet im Leistungsvergleich mit anderen Open Source-Modellen gut ab, hat aber noch Entwicklungspotenzial in den Bereichen logisches Denken, Codieren und Mathematik. Zudem kann »Teuken 7B«, wie andere große Sprachmodelle auch, Inhalte generieren, die unangemessen, beleidigend oder schädlich sind. 

  • »Teuken 7B-instruct« ist ein Chatbot, der vor allem für Unternehmensanwendungen und Forschungsvorhaben gedacht ist. Entwicklerinnen und Entwickler aus Unternehmen und der Wissenschaftscommunity können damit ihre individuellen Chatanwendungen entwickeln. Um das Modell auf die eigenen Unternehmenszwecke anzupassen, kann »Teuken 7B-instruct-commercial« zusätzlich mit eigenen Daten durch Continued Pretraining, Finetuning, Instruction Tuning, Model Merging etc. weiterverarbeitet werden.

  • Ja. Unternehmen können »Teuken 7B-instruct-commercial-v0.4« unter der Lizenz »Apache 2.0« für ihre KI-Anwendungen kommerziell verwenden.

  • Basismodelle sind besonders anfällig für das Generieren von unangemessen, beleidigenden oder schädlichen Inhalten. Zugleich bieten Basismodelle den Vorteil, dass sich diese bei einem fachlich richtigen und verantwortungsvollen Einsatz durch Finetuning und Instruction Tuning zu leistungsfähigen Spezialmodellen entwickeln lassen.

    Daher wird das Basismodell »Teuken 7B-base-v0.4« zwar nicht veröffentlicht, Unternehmen und andere Akteure können bei Interesse am Basismodell aber Kontakt mit dem Fraunhofer IAIS aufnehmen, sodass die Verwendung des Basismodells abgestimmt und begleitet werden kann.

    Anfragen per Mail an: contact@opengpt-x.de

  • Aktuell nein. Der EU AI Act findet erst ab August 2025 Anwendung. KI-Modelle, die vor diesem Zeitpunkt in Verkehr gebracht wurden, müssen den Anforderungen des EU AI Act erst ab August 2027 entsprechen (Bestandsschutz).

  • Das Forschungsprojekt OpenGPT-X steht mit der Veröffentlichung von »Teuken 7B-instruct-v0.4« vor dem Abschluss und läuft noch bis zum 31. März 2025. Bis dahin werden wir das Modell weiter optimieren und evaluieren. Entwicklungspotential für das Modell besteht für relevante Tasks wie logisches Denken, Coding und Mathematik sowie Bias und Toxicity. Weiterhin können wir durch eine Fortsetzung des Modelltrainings die Anzahl der gleichzeitig durch das Modell verarbeitenden Token (Context Window) vergrößern.

    Da es sich um ein Open-Source-Projekt handelt, gehen wir zugleich davon aus, dass für unterschiedliche Anwendungszwecke angepasste oder spezialisierte Versionen des Modells aus der Wissenschaftscommunity oder auch aus Unternehmen heraus entstehen.

  • Unsere Wissenschaftlerinnen und Wissenschaftler stehen mit der LLM-Community über den OpenGPT-X-Discord-Server in Kontakt. Hier ist auch der Ort für Fragen und Feedback rund um das Modell.

OpenGPT-X: Digitale Souveränität für Europa

Über OpenGPT-X

Das OpenGPT-X-Projekt mit seinen zehn Partnern startete am 1. Januar 2022 mit einer Förderung des Bundesministeriums für Wirtschaft und Klimaschutz (BMWK) in Höhe von rund 14 Millionen Euro und endet am 31. März 2025. Unter der Leitung von Fraunhofer IAIS und Fraunhofer IIS erforscht das Projekt die gesamte Wertschöpfungskette der Generativen KI: Von der hochskalierbaren, GPU-basierten Infrastruktur und den Daten für das Training großer Sprachmodelle, über die Entwicklung der Modelle, bis hin zur produktiven Anwendung in Form von Prototypen und Proof of Concepts (PoCs). Übergreifendes Ziel des Projektes war es, ein eigenes großes KI-Sprachmodell zu entwickeln, das für Forschung und Unternehmen Open Source zur Verfügung gestellt und insbesondere auf die multilingualen Bedürfnisse Europas ausgerichtet wird.

Mit der Veröffentlichung von »Teuken 7B« hat das Projekt dieses Ziel erreicht und stellt damit eine aus der öffentlichen Forschung stammende Alternative für zukünftige wissenschaftliche Untersuchungen und wirtschaftliche Anwendungen der Generativen KI zur Verfügung. 

 

 

Teuken-7B Trennerbild

Teuken-7B Webinar

Wir empfehlen allen Interessierten zunächst die Teilnahme an unserem kostenlosen Webinar.

Anmeldung: Webinar auf Deutsch

Anmeldung: Webinar auf Englisch

Das Webinar dient als Einführung zu Teuken und LLMs. Wenn Sie bereits an einem Webinar teilgenommen haben oder ein konkretes Anliegen haben, können Sie auch direkt mit einem Beratungstermin einsteigen. Nutzen Sie dafür das folgende Formular:

Teuken-7B Beratungstermin

* Pflichtfelder