OpenGPT-X: Teuken 7B - Fraunhofer IAIS

Das europäische, offene, multilinguale KI-Sprachmodell

Unternehmen aller Branchen können KI-Anwendungen jetzt mit »Teuken 7B« umsetzen – das große KI-Sprachmodell des Forschungsprojekts OpenGPT-X steht auf Hugging Face kostenfrei zum Download bereit: »Teuken 7B-instruct-v0.4« ist von Grund auf mit den 24 Amtssprachen der EU trainiert und sieben Milliarden Parameter groß. Entwicklerinnen und Entwickler aus Forschung und Unternehmen können »Teuken 7B-instruct-v0.4« herunterladen und es als Basis für ihre Anwendungen anpassen, ergänzen und weiter finetunen. Nach diesem Schritt entsteht ein Modell, das im Unternehmen für spezielle Anwendungsfälle optimiert ist.

»Teuken 7B« gibt es in folgenden Versionen:

für Forschungszwecke:
»Teuken 7B-instruct-research-v0.4«
für nicht-kommerzielle Zwecke:
»Teuken 7B-instruct-v0.6«
»Teuken 7B-base-v0.6«
für Unternehmen zur kommerziellen Nutzung unter der Lizenz »Apache 2.0«:
»Teuken 7B-instruct-commercial-v0.4«

Neben den beiden Fraunhofer-Instituten IAIS und IIS und dem Forschungszentrum Jülich haben der KI Bundesverband, die TU Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), IONOS, Aleph Alpha, ControlExpert sowie der Westdeutsche Rundfunk (WDR) als Partner an OpenGPT-X mitgearbeitet.

Zum kostenfreien Webinar anmelden

Multilingual

Unser Modell ist von Grund auf mehrsprachig in allen 24 EU-Sprachen trainiert.
Es enthält ca. 50 Prozent nicht-englische Pretraining-Daten.
Der Leistungsvergleich zeigt: Das Modell liefert ähnlich gute Ergebnisse über die Bandbreite der Sprachen hinweg.
Damit spiegelt es europäische Eigenarten, Normen und Werte wider und ermöglicht effektive vielsprachige Kommunikation.

Offen

Das Modell kann kostenfrei in verschiedenen Versionen und Lizenzen auf Hugging Face heruntergeladen werden.
»Teuken 7B« kann in den Versionen 0.4 und 0.6 in der Forschung genutzt und weiterentwickelt werden.
Mit der Version »Teuken 7B-instruct-commercial-v0.4« können kommerzielle KI-Anwendungen umgesetzt werden.
Sensible Daten können im Unternehmen bleiben.

Science-driven

Von Wissenschaftlerinnen und Wissenschaftlern für die kommerzielle Anwendung entwickelt.
Unser multilingualer Tokenizer emöglicht besonders (energie-)effizientes Training und Betrieb von multilingualen Anwendungen.
Unser European Leaderboard vergleicht und testet verschiedene Modelle auf multilinguale Aufgabenstellungen.
Podcast Knowledge Science: Mehdi Ali und Michael Fromm vom Fraunhofer IAIS erläutern die Entwicklung mehrsprachiger europäischer KI-Systeme.

Anwendung im Unternehmen

Download

Entwicklerinnen und Entwickler können »Teuken 7B« auf Hugging Face kostenfrei herunterladen.

free Download

Webinar

Sobald neue Termine für Webinare verfügbar sind, werden wir es hier ankündigen. Folgen Sie uns in den sozialen Medien, um auf dem Laufenden zu bleiben!

Folgen

Mit uns starten

Wir passen »Teuken 7B« auf Ihre Unternehmensprozesse an. Informieren Sie sich zu unseren Angeboten und vereinbaren Sie einen Beratungstermin.

weiter

Technische Infos & Forschung

Model Cards und Benchmarks

Technische Infos zum Modell und zur Anwendung. Grafiken und technische Erläuterungen im Vergleich mit anderen Modellen.

ansehen

Use Cases

Hier finden Sie eine exemplarische Sammlung von konkreten Anwendungbespielen, z. B. aus den Branchen Industrie, Healthcare, Legal, Finance und Medien.

zur LLM Use Case Bibliothek

Publikationen und Code Repositories

Forschungsergebnisse zu multilingualen Sprachmodellen

ansehen

LLM-Community

Wir beantworten technische und wissenschaftliche Fragen der Community und bieten Raum für Feedback und Austausch über den OpenGPT-X-Discord-Server.

mitdiskutieren

FAQ zu »Teuken 7B«

Alle ausklappen Alle einklappen

In welchen Versionen steht »Teuken 7B« zur Verfügung und was ist der Unterschied?
»Teuken 7B« steht in folgenden Versionen zur Verfügung:

»Teuken 7B-instruct-research-v0.4« für Forschungszwecke.

»Teuken 7B-instruct-commercial-v0.4« für Unternehmen zur kommerziellen Nutzung unter der Lizenz »Apache 2.0«.
Das Modell wurde durch ein »Instruction Tuning« bereits für den Chat optimiert. »Teuken 7B-instruct-commercial-v.04« ist in seiner Leistungsfähigkeit vergleichbar mit der Forschungsversion »Teuken 7B-instruct-research-v0.4«, wobei die Forschungsversion bei den Benchmarks um ein bis zwei Prozent bessere Ergebnisse erzielt.

»Teuken 7B-instruct-v0.6« und »Teuken 7B-base-v0.6« für nicht-kommerzielle Zwecke unter der Lizenz »CC BY-NC 4.0«. Das Update weist im Vergleich zu »Teuken 7B-instruct-v.04« signifikante Verbesserungen auf, dazu gehören eine erhöhte Leistungsfähigkeit, verbesserte Robustheit und Zuverlässigkeit sowie eine erweiterte Anwendungsflexibilität.
Wo kann ich das KI-Sprachmodell »Teuken 7B« herunterladen und ist das mit Kosten verbunden?

»Teuken 7B« kann kostenfrei auf Hugging Face heruntergeladen werden.
Wie kann ich »Teuken 7B« ausprobieren, ohne es selbst herunterzuladen?

Speziell für Unternehmen besteht die Möglichkeit an einem kostenfreien Webinar teilzunehmen, in denen Fraunhofer-Wissenschaftlerinnen und -Wissenschaftler erläutern, welche Anwendungen mit entsprechender Weiterverarbeitung auf Basis von »Teuken 7B« realisiert werden können.
Für welche Zwecke kann ich »Teuken 7B« im Unternehmen verwenden?
»Teuken 7B-instruct-commercial-v0.4« ist multilingual und wurde durch ein »Instruction Tuning« für den Chat optimiert, ist also als mehrsprachiger Chatbot einsetzbar, z. B. im internationalen Kundenservice oder um Mitarbeitenden Unternehmenswissen zugänglich zu machen.

Folgende weitere Anwendungen können mit »Teuken 7B-instruct-commercial-v0.4« umgesetzt werden:

Einsatzbereiche:

Dokumente zusammenfassen

Texte generieren

Informationen aus Texten extrahieren

Um das Modell auf die eigenen Unternehmenszwecke anzupassen, kann »Teuken 7B-instruct-commercial-v0.4« durch Continued Pretraining, Finetuning, Instruction Tuning, Model Merging etc. weiterverarbeitet werden. So entsteht ein Modell, das für die individuellen Anwendungsfälle im Unternehmen optimiert ist.
Was muss ich als Unternehmen beachten, wenn ich »Teuken 7B« bei mir einsetzen möchte?

Wählen Sie die Version »Teuken 7B-instruct-commercial-v0.4«. Sie können dieses Modell für KI-Anwendungen kommerziell nutzen und es dafür auf die eigenen Unternehmenszwecke anpassen und zusätzlich mit eigenen Daten durch Continued Pretraining, Finetuning, Instruction Tuning, Model Merging etc. weiterverarbeiteten.

Das Modell schneidet im Leistungsvergleich mit anderen Open Source-Modellen gut ab, hat aber noch Entwicklungspotenzial in den Bereichen logisches Denken, Codieren und Mathematik. Zudem kann »Teuken 7B«, wie andere große Sprachmodelle auch, Inhalte generieren, die unangemessen, beleidigend oder schädlich sind.
Ist »Teuken 7B-instruct« wie ChatGPT?

»Teuken 7B-instruct« ist ein Chatbot, der vor allem für Unternehmensanwendungen und Forschungsvorhaben gedacht ist. Entwicklerinnen und Entwickler aus Unternehmen und der Wissenschaftscommunity können damit ihre individuellen Chatanwendungen entwickeln. Um das Modell auf die eigenen Unternehmenszwecke anzupassen, kann »Teuken 7B-instruct-commercial-v0.4« zusätzlich mit eigenen Daten durch Continued Pretraining, Finetuning, Instruction Tuning, Model Merging etc. weiterverarbeitet werden.
Ist »Teuken 7B-instruct-commercial-v0.4« kommerziell nutzbar?

Ja. Unternehmen können »Teuken 7B-instruct-commercial-v0.4« unter der Lizenz »Apache 2.0« für ihre KI-Anwendungen kommerziell nutzen.
Wie kann ich auf das Basismodell zugreifen?

Basismodelle sind besonders anfällig für das Generieren von unangemessen, beleidigenden oder schädlichen Inhalten. Zugleich bieten Basismodelle den Vorteil, dass sich diese bei einem fachlich richtigen und verantwortungsvollen Einsatz durch Finetuning und Instruction Tuning zu leistungsfähigen Spezialmodellen entwickeln lassen.

Das Basismodell in der Version Teuken 7B-base-v0.6 kann hier für die Forschung sowie für die private, bildungsrelevante und nicht-kommerzielle Nutzung heruntergeladen werden.
Müssen bei der Nutzung des Modells Pflichten der Europäischen KI-Verordnung (AI Act) berücksichtigt werden?

Aktuell nein. Der EU AI Act findet erst ab August 2025 Anwendung. KI-Modelle, die vor diesem Zeitpunkt in Verkehr gebracht wurden, müssen den Anforderungen des EU AI Act erst ab August 2027 entsprechen (Bestandsschutz).
Wie geht es mit OpenGPT-X weiter? Werden weitere Modelle veröffentlicht?

Das Forschungsprojekt OpenGPT-X ist abgeschlossen.

Da es bei »Teuken 7B« um ein offenes LLM handelt, gehen wir zugleich davon aus, dass für unterschiedliche Anwendungszwecke angepasste oder spezialisierte Versionen des Modells aus der Wissenschaftscommunity oder auch aus Unternehmen heraus entstehen.
Wo kann ich mich über die Performance des Modells im Vergleich zu anderen Sprachmodellen informieren?
Alle Evaluierungsergebnisse sind über unser European LLM Leaderboard einsehbar:

zum Leaderboard

Technische Infos zum Modell und zur Anwendung stehen in unserer Model Card:

zur Model Card

Die zentralen Evaluierungsergebnisse haben wir aufbereitet:

zu den Benchmarkgrafiken

Eine ausführliche Besprechung des Modells gibt es hier:

zur OpenGPT-X Projektwebsite
An wen kann ich mich wenden, wenn ich als Entwickler oder Forscherin Fragen zum Modell habe oder Feedback geben möchte?
Unsere Wissenschaftlerinnen und Wissenschaftler stehen mit der LLM-Community über den OpenGPT-X-Discord-Server in Kontakt. Hier ist auch der Ort für Fragen und Feedback rund um das Modell.

mitdiskutieren

OpenGPT-X: Digitale Souveränität für Europa

Das OpenGPT-X-Projekt mit seinen zehn Partnern startete am 1. Januar 2022 mit einer Förderung des Bundesministeriums für Wirtschaft und Klimaschutz (BMWK) in Höhe von rund 14 Millionen Euro und endete am 31. März 2025. Unter der Leitung von Fraunhofer IAIS und Fraunhofer IIS erforschte das Projekt die gesamte Wertschöpfungskette der Generativen KI: Von der hochskalierbaren, GPU-basierten Infrastruktur und den Daten für das Training großer Sprachmodelle, über die Entwicklung der Modelle, bis hin zur produktiven Anwendung in Form von Prototypen und Proof of Concepts (PoCs). Übergreifendes Ziel des Projektes war es, ein eigenes großes KI-Sprachmodell zu entwickeln, das Forschung und Unternehmen zur Verfügung steht und auf die multilingualen Bedürfnisse Europas ausgerichtet ist.

Mit der Veröffentlichung von »Teuken 7B« hat das Projekt dieses Ziel erreicht und stellt damit eine aus der öffentlichen Forschung stammende Alternative für zukünftige wissenschaftliche Untersuchungen und wirtschaftliche Anwendungen der Generativen KI zur Verfügung.

Webinar zu »Teuken 7B«

Wir empfehlen allen Interessierten die Teilnahme an unserem kostenlosen Webinar.

Das Webinar ist eine Einführung zu Teuken und LLMs.

Weitere Termine sind in Planung und werden an dieser Stelle bekannt gegeben.

Wenn Sie ein konkretes Anliegen haben, können Sie auch direkt mit einem Beratungstermin einsteigen. Nutzen Sie dafür das folgende Formular

Beratungstermin zu »Teuken 7B«

* Pflichtfelder

Bitte geben Sie die Daten für Ihre Anfrage ein.

Anrede

Vorname

Nachname

E-Mail

Telefon

Ort

Institution / Firma

Rolle im Unternehmen

Branche

Ich interessiere mich für einen kostenfreien Beratungstermin. Das ist mein Anliegen:

Nachricht Verfügbare Zeichen:

Mit dem Absenden des Formulars bestätige ich, dass ich die Datenschutzerklärung zur Kenntnis genommen habe. Ich bin damit einverstanden, dass die von mir angegebenen Daten elektronisch erhoben und gespeichert werden. Mit dem Absenden des Kontaktformulars willige ich ein, dass ich mit der Verarbeitung einverstanden bin.

Die von Ihnen zuvor mitgeteilte E-Mail-Adresse verwenden wir, um Sie zukünftig per E-Mail über eigene ähnliche Angebote (z.B. Veranstaltungen) zu informieren. Sie können dieser Verwendung jederzeit gegenüber Fraunhofer, insbes. unter widerspruch@iais.fraunhofer.de widersprechen.

Sie können weitere Informationen zu dem Thema Datenschutz bei Fraunhofer, insbesondere zu den gesetzlich vorgeschrieben Informationspflichten, jederzeit über unsere Datenschutzerklärung einsehen.