Kompetenz Text Mining

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Text Mining

Viele E-Mailprogramme bieten mittlerweile eine Funktion an, um ungewünschte Werbe-E-Mails automatisch auszublenden. Den E-Mail-Benutzern spart diese Filterfunktion viel Zeit. Hinter diesen Filtern stecken Algorithmen, die als Text-Klassifikationsverfahren bekannt sind und dem Forschungsgebiet Text Mining zuzurechnen sind. Die Abteilung KD entwickelt und trainiert Klassifikationsverfahren für große Mengen an Texten unterschiedlicher Sprache und Form.

An solchen Verfahren entwickeln wir primär:

  • Statistical Classification: Zuordnung von Dokumenten in bereits bestehende Kategorien (z.B. Bestellung, Storno, Adressänderung, Spam)
  • Statistical Clustering: Gruppierung ähnlicher Dokumente (z.B. welche Dokumente ähneln einem bestimmten Unfallbericht?)
  • Topic Modeling: Erkennung relevanter Teil-Informationen (z.B. Themen)


Mit folgenden Datentypen haben wir Erfahrungen gesammelt:

  • Dokumente und Streams, z.B. dpa Nachrichten, Vertriebsdokumente
  • Webdaten, z.B. aus Webseiten, Foren, Weblogs, RSS Feeds
  • Juristische Daten und Patentinformationen


Durch Text Mining lassen sich vielfältige Anwendungen realisieren oder ergänzen:

  • Unternehmensspezifische Informationsdienste (Corporate Intelligence)
  • Monitoring eigener und fremder Produkte (respektive der hervorgerufenen Emotionen aufgrund bestimmter Themen)
  • Überwachung der eigenen Markenverwendung bzgl. Markenmissbrauch
  • Aktuelle Preise und Konditionen in bestimmten Branchen nachvollziehen (z.B. Immobilien, Endprodukte, Rohstoffe)
  • Erkennen, welche Meinungsmacher für bestimmte Themen vorliegen
  • Öffentliche Wahrnehmung des eigenen Vorstands oder weiterer exponierter Personen beobachten
  • Auswerten, welche Impulse die eigene Werbekampagne setzen konnte (z.B. in Online-Zeitschriften, Foren oder Blogs)
  • Wahrnehmung der Meinungen von Kunden, Shareholdern und Stakeholdern
  • Identifizieren neuer Zielgruppen (z.B. durch Community-Profiling)
  • Frühzeitiges Erkennen neuer Trends (z.B. Technologien oder Angebote)


Beispiele für branchenspezifische Anwendungen sind:

  • Ein Telekommunikationsunternehmen möchte jeden Morgen ein Stimmungsbild über sämtliche Diskussionsforen haben, in denen über die eigenen Produkte diskutiert wurden. Dazu werden relevante Diskussionsforen maschinell identifiziert, die Beiträge hinsichtlich der genannten Firmenbezeichnungen untersucht und sowohl eine Themenerkennung als auch Emotionserkennung (Ärger, Freude, Überraschung uvm.) durchgeführt.
  • Ein Maschinenbauunternehmen möchte wissen, zu welchen Endverkaufspreisen die Zwischenhändler ihre Produkte im B2C-Bereich absetzen. Dazu werden die Online-Kataloge der Händler maschinell ausgewertet und Preisübersichten generiert.
  • Ein Veranstalter möchte sich weltweit informieren, welche Veranstaltungstrends (v.a. Veranstaltungen, Themen, Besucherzahlen) entstehen, um diese ggfs. in ähnlicher Weise durchzuführen. Dazu werden weltweite Veranstaltungs-Datenbanken periodisch abgefragt, Veranstaltungsthemen und Besucherzahlen extrahiert und deren Entwicklung in Listen und Trends visualisiert.


Weitere Informationen zu unseren Verfahren, Erfahrungen und Anwendungsbeispielen können Sie auch gerne direkt erfragen.