OpenGPT-X

Teuken-7B – das europäische, offene, multilinguale KI-Sprachmodell

Unternehmen aller Branchen können KI-Anwendungen jetzt mit Teuken-7B umsetzen – das große KI-Sprachmodell des Forschungsprojekts OpenGPT-X steht ab sofort Open Source auf Hugging Face kostenfrei zum Download bereit: Teuken-7B-instruct-v0.4 ist von Grund auf mit den 24 Amtssprachen der EU trainiert und sieben Milliarden Parameter groß. Entwickler*innen aus Forschung und Unternehmen können Teuken-7B herunterladen und es als Basis für ihre Anwendungen anpassen, ergänzen und weiter finetunen. Nach diesem Schritt entsteht ein Modell, das im Unternehmen für spezielle Anwendungsfälle optimiert ist.

Teuken-7B ist in zwei Versionen erhältlich: »Teuken-7B-instruct-research-v0.4« kann für Forschungszwecke verwendet werden, »Teuken-7B-instruct-commercial-v0.4« steht Unternehmen für kommerzielle Zwecke unter der Lizenz »Apache 2.0« zur Verfügung. Das Modell wurde durch ein »Instruction Tuning« bereits für den Chat optimiert.  
 

Multilingual

  • Unser Modell ist von Grund auf mehrsprachig in allen 24 EU-Sprachen trainiert.
  • Es enthält ca. 50 Prozent nicht-englische Pretraining-Daten.
  • Der Leistungsvergleich zeigt: Das Modell liefert ähnlich gute Ergebnisse über die Bandbreite der Sprachen hinweg.
  • Damit spiegelt es europäische Eigenarten, Normen und Werte wider und ermöglicht effektive vielsprachige Kommunikation.

 

Open Source

  • Das Modell kann kostenfrei auf Hugging Face heruntergeladen werden.
  • Die Lizenz »Apache 2.0« erlaubt es, »Teuken-7B-instruct-commercial-v0.4« anzupassen, weiterzuentwickeln und für kommerzielle KI-Anwendungen zu nutzen.
  • Sensible Daten können im Unternehmen bleiben.
  • Die Forschungslizenz erlaubt es, »Teuken-7B-instruct-research-v0.4« für die Forschung und Erprobung frei zu nutzen und weiterzuentwickeln.

Science-driven

  • Von Wissenschaftlerinnen und Wissenschaftlern für die kommerzielle Anwendung entwickelt.
  • Unser multilingualer Tokenizer emöglicht besonders (energie-)effizientes Training und Betrieb von multilingualen Anwendungen.
  • Unser European Leaderboard vergleicht und testet verschiedene Modelle auf multilinguale Aufgabenstellungen.
  • Podcast Knowledge Science: Mehdi Ali und Michael Fromm vom Fraunhofer IAIS erläutern die Entwicklung mehrsprachiger europäischer KI-Systeme.

ANWENDUNG IM UNTERNEHMEN

Download

Entwickler*innen können hier Teuken-7B unter der Lizenz Apache 2.0 (oder unter einer Forschungslizenz) auf Hugging Face kostenfrei herunterladen.  

Demotermine

Erfahren Sie, was mit Teuken-7B möglich ist. Jetzt für einen Demotermin mit den Expert*innen vormerken.

  • für Unternehmen / kostenfrei
  • 60 Minuten

Mit uns starten

Wir passen Teuken-7B auf Ihre Unternehmensprozesse an. Informieren Sie sich zu unseren Angeboten oder vereinbaren Sie einen Beratungstermin.

TECHNISCHE INFOS & FORSCHUNG

 

Model Cards und Benchmarks

Technische Infos zum Modell und zur Anwendung. Grafiken und technische Erläuterungen im Vergleich mit anderen Modellen.

 

USE CASES

Hier finden Sie eine exemplarische Sammlung von konkreten Anwendungbespielen, z. B. aus den Branchen Industrie, Healthcare, Legal, Finance und Medien.

Publikationen und Code Repositories

Forschungsergebnisse zu multilingualen Sprachmodellen

LLM-Community

Wir beantworten technische und wissenschaftliche Fragen der Community und bieten Raum für Feedback und Austausch über den OpenGPT-X-Discord-Server.

FAQ

  • Teuken-7B steht in zwei Lizenz-Versionen kostenfrei zur Verfügung: »Teuken-7B-instruct-research-v0.4« kann von Wissenschaftscommunity und Unternehmen für Forschungszwecke verwendet werden, »Teuken-7B-instruct-commercial-v0.4« steht Unternehmen für kommerzielle Zwecke unter der Lizenz »Apache 2.0« zur Verfügung. 

    Teuken-7B-instruct-commercial-v.04 ist in seiner Leistungsfähigkeit vergleichbar mit der Forschungsversion, wobei die Forschungsversion bei den Benchmarks um ein bis zwei Prozent bessere Ergebnisse erzielt. Der Grund dafür ist, dass einige in der Forschungsversion verwendeten Datensätze eine kommerzielle Nutzung ausschließen und daher in der Version für Unternehmen nicht verwendet wurden. 

  • Teuken-7B steht kostenfrei und Open Source auf Hugging Face zum Download zur Verfügung.

  • Speziell für Unternehmen besteht die Möglichkeit an kostenfreien Demoterminen teilzunehmen, in denen Fraunhofer-Wissenschaftler*innen erläutern, welche Anwendungen mit entsprechender Weiterverarbeitung auf Basis von Teuken-7B realisiert werden können.

  • Teuken-7B ist multilingual und wurde durch ein »Instruction Tuning« für den Chat optimiert, ist also als mehrsprachiger Chatbot einsetzbar, z. B. im internationalen Kundenservice oder um Mitarbeitenden Unternehmenswissen zugänglich zu machen. 

    Folgende weitere Anwendungen können mit Teuken-7B umgesetzt werden:

    Einsatzbereiche:

    • Dokumente zusammenfassen
    • Texte generieren
    • Informationen aus Texten extrahieren

    Um das Modell auf die eigenen Unternehmenszwecke anzupassen, kann Teuken-7B durch Continued Pretraining, Finetuning, Instruction Tuning, Model Merging etc. weiterverarbeitet werden. So entsteht ein Modell, das für die individuellen Anwendungsfälle im Unternehmen optimiert ist.  

  • Um das Modell auf die eigenen Unternehmenszwecke anzupassen, kann Teuken-7B-instruct-commercial zusätzlich mit eigenen Daten durch Continued Pretraining, Finetuning, Instruction Tuning, Model Merging etc. weiterverarbeitet werden.

    Das Modell schneidet im Leistungsvergleich mit anderen Open Source-Modellen gut ab, hat aber noch Entwicklungspotenzial in den Bereichen logisches Denken, Codieren und Mathematik. Zudem kann Teuken-7B, wie andere große Sprachmodelle auch, Inhalte generieren, die unangemessen, beleidigend oder schädlich sind. 

  • Teuken-7B-instruct ist ein Chatbot, der vor allem für Unternehmensanwendungen und Forschungsvorhaben gedacht ist. Entwickler*innen aus Unternehmen und der Wissenschaftscommunity können damit ihre individuellen Chatanwendungen entwickeln. Um das Modell auf die eigenen Unternehmenszwecke anzupassen, kann Teuken-7B-instruct-commercial zusätzlich mit eigenen Daten durch Continued Pretraining, Finetuning, Instruction Tuning, Model Merging etc. weiterverarbeitet werden.

  • Ja. Unternehmen können Teuken-7B-instruct-commercial-v0.4 unter der Lizenz Apache 2.0 für ihre KI-Anwendungen kommerziell verwenden.

  • Basismodelle sind besonders anfällig für das Generieren von unangemessen, beleidigenden oder schädlichen Inhalten. Zugleich bieten Basismodelle den Vorteil, dass sich diese bei einem fachlich richtigen und verantwortungsvollen Einsatz durch Finetuning und Instruction Tuning zu leistungsfähigen Spezialmodellen entwickeln lassen.

    Daher wird das Basismodell Teuken-7B-base-v0.4 zwar nicht veröffentlicht, Unternehmen und andere Akteure können bei Interesse am Basismodell aber Kontakt mit dem Fraunhofer IAIS aufnehmen, sodass die Verwendung des Basismodells abgestimmt und begleitet werden kann.

    Anfragen per Mail an: contact@opengpt-x.de

  • Aktuell nein. Der EU AI Act findet erst ab August 2025 Anwendung. KI-Modelle, die vor diesem Zeitpunkt in Verkehr gebracht wurden, müssen den Anforderungen des EU AI Act erst ab August 2027 entsprechen (Bestandsschutz).

  • Das Forschungsprojekt OpenGPT-X steht mit der Veröffentlichung von Teuken-7B-instruct-v0.4 vor dem Abschluss und läuft noch bis zum 31. März 2025. Bis dahin werden wir das Modell weiter optimieren und evaluieren. Entwicklungspotential für das Modell besteht für relevante Tasks wie logisches Denken, Coding und Mathematik sowie Bias und Toxicity. Weiterhin können wir durch eine Fortsetzung des Modelltrainings die Anzahl der gleichzeitig durch das Modell verarbeitenden Token (Context Window) vergrößern.

    Da es sich um ein Open-Source-Projekt handelt, gehen wir zugleich davon aus, dass für unterschiedliche Anwendungszwecke angepasste oder spezialisierte Versionen des Modells aus der Wissenschaftscommunity oder auch aus Unternehmen heraus entstehen.

  • Unsere Wissenschaftler*innen stehen mit der LLM-Community über den OpenGPT-X-Discord-Server in Kontakt. Hier ist auch der Ort für Fragen und Feedback rund um das Modell.

Digitale Souveränität für Europa

Über OpenGPTX

Das OpenGPT-X-Projekt mit seinen zehn Partnern startete am 1. Januar 2022 mit einer Förderung des Bundesministeriums für Wirtschaft und Klimaschutz (BMWK) in Höhe von rund 14 Millionen Euro und endet am 31. März 2025. Unter der Leitung von Fraunhofer IAIS und Fraunhofer IIS erforscht das Projekt die gesamte Wertschöpfungskette der Generativen KI: Von der hochskalierbaren, GPU-basierten Infrastruktur und den Daten für das Training großer Sprachmodelle, über die Entwicklung der Modelle, bis hin zur produktiven Anwendung in Form von Prototypen und Proof of Concepts (PoCs). Übergreifendes Ziel des Projektes war es, ein eigenes großes KI-Sprachmodell zu entwickeln, das für Forschung und Unternehmen Open Source zur Verfügung gestellt und insbesondere auf die multilingualen Bedürfnisse Europas ausgerichtet wird.

Mit der Veröffentlichung von Teuken-7B hat das Projekt dieses Ziel erreicht und stellt damit eine aus der öffentlichen Forschung stammende Alternative für zukünftige wissenschaftliche Untersuchungen und wirtschaftliche Anwendungen der Generativen KI zur Verfügung. 

 

 

OpenGPT-X Demo- und Beratungstermine

* Pflichtfelder