Smart Semantics

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Bislang war es sehr aufwändig, Anwendungen zur Analyse unstrukturierter Daten zu entwickeln.Am Fraunhofer IAIS haben wir daher frühzeitig begonnen, innovative Analyseverfahren aus der angewandten Forschung in Module zu überführen, die sich leicht in bestehende IT-Systeme integrieren lassen. Diese Module nennen sich Smart Semantics.

Hier finden Sie Beispiele für Anwendungen zur Analyse unstrukturierter Daten.

Spezifika der Smart Semantics

Smart Semantics sind Komponenten für Analyse-Frameworks. Sie sind in den Programmiersprachen C++ und Java geschrieben und kompatibel mit Apache UIMA. Dadurch lassen sie sich einfach in bereits bestehende IT-Umgebungen integrieren. UIMA ist ein Framework für die Analyse von unstrukturierten Daten wie Text, Bilder, Audio und Videos. Es wurde von IBM entwickelt und ist seit 2006 als Open Source Apache UIMA in Version 2.2.1 verfügbar.

Idee hinter Smart Semantics

Die grundlegende Idee hinter Smart Semantics wirkt einfach. Wann immer zwei Wörter häufig im gleichen Kontext auftauchen, z. B. auf einer Seite, einem Absatz, Satz, dann muss eine Art semantischer Beziehung zwischen ihnen existieren. Mit Hilfe von statistischer Korrelationsanalysen sowie intelligenten Data Mining Algorithmen extrahieren Smart Semantics auf diese Weise die Semantik aus Daten.

Verfügbare Smart Semantic Komponenten

Wir haben aus dem Pool möglicher Analyseverfahren solche modularisiert, die besonders viele innovative Anwendungen ermöglichen - sicher auch ihre! Folgende Komponenten bieten wir an:

  • Smart Semantic Komponente Site-Classifier
    Der Site-Classifier erlaubt die maschinelle Klassifikation ganzer Dokumente wie z.B. Webseiten. Nach einer Trainingsphase sind auf diese Weise z.B. Projekt-, Mitarbeiter- oder Produktseiten automatisch als solche erkennbar und für die effizientere Suche nutzbar (z.B. „Zeige alle Seiten, die den Begriff X enthalten und als Produktseite klassifiziert wurden“). Gegenüber konventionellen Verfahren haben lernende Verfahren den Vorteil, dass auch unbekannte Dokumente mit alternativen Begrifflichkeiten aufgrund ihrer Ähnlichkeit zu einem gelernten Modell klassifizierbar sind. Da auf diese Weise die Pflege von Stichwort-Listen oder Heuristiken zur statischen Klassifikation entfällt, sparen Unternehmen umfangreichen Wartungsaufwand.
  • Smart Semantic Komponente Named-Entity-Recognizer
    Der Named-Entity-Recognizer identifiziert benannte Entitäten wie Personen, Organisationen, Orte und ermöglicht dadurch die Filterung von Dokumenten nach bestimmten Entitäten (z.B. „Zeige alle Seiten, die X und zusätzlich Personennamen enthalten“). Im Gegensatz zu herkömmlichen Verfahren erkennt die Smart Semantic-Komponente Bedeutungsunterschiede gleichlautender Begriffe, wie etwa die den Unterschied zwischen „Vogel“ als Tier und „Vogel“ als Personenname, in dem der inhaltliche Kontext des Begriffs berücksichtigt wird.
  • Smart Semantic Komponente Keyword-Extractor
    Der Keyword-Extractor ist eine Komponente, die statistisch signifikante Wörter aus Dokumenten extrahiert und diese z.B. für Tagclouds, für Wortvorschläge bei Suchanfragen oder als Zusatzinformationen in der Suchergebnisdarstellung bereitstellt.

Weitere Komponenten sind in Entwicklung. Haben Sie Interesse an der Nutzung der Smart Semantics oder benötigen Sie weitere Analyseverfahren für Ihre Anwendung? Bitte sprechen Sie uns an, die Kontaktdaten finden Sie oben links.