Neue Version 0.3 des SANSA Software Stacks erleichtert die Analyse großer Wissensbasen

News / 21.12.2017

Das Team des Forschungsprojekts »Semantic Analytics Stacks (SANSA)« hat die Version 0.3 seines Software Stacks veröffentlicht. SANSA und verknüpft die Vorteile von Big-Data-Tools wie Apache Spark und Apache Flink mit den Möglichkeiten moderner Wissensgraphen.

Große Wissensgraphen werden nicht nur bei Google (»Google Knowledge Graph«), Microsoft (»Satori«), LinkedIn, Facebook usw. eingesetzt, sondern finden auch vermehrt Einsatz bei Firmen außerhalb des IT-Bereichs sowie in der Open-Data-Bewegung. So enthalten etwa die »Wikidata«- und »Dbpedia«-Wissensgraphen viel Wissen, das aus Wikipedia bekannt ist.

Bei SANSA handelt es sich um einen Software Stack – eine Menge von Programmierbibliotheken – mit denen sich große Wissensgraphen abfragen und analysieren lassen. SANSA kann die Berechnungen dafür auf mehren Rechnerknoten in einem Cluster verteilen. Eine Grundidee dabei ist »horizontale Skalierbarkeit«, das heißt, wenn mehr Rechenpower benötigt wird, kann das Cluster einfach entsprechend vergrößern indem weitere Rechner hinzufügt werden – ohne die Software selbst verändern zu müssen.

In der neuen Version 0.3 bietet SANSA Funktionen um Wissensgraphen in verschiedenen Formaten einzulesen, so dass die Daten im Hintergrund automatisch auf Rechnern im Cluster verteilt werden. Darauf basierend bietet SANSA effiziente Schnittstellen zur Abfrage der Daten an und implementiert zahlreiche Algorithmen zur Analyse der Daten. Zum Beispiel kann SANSA Regelmäßigkeiten in Daten entdecken und Verknüpfungen (»Links«) zwischen Objekten vorhersagen – so können beispielsweise unvollständige Wissensgraphen komplettiert werden. Darüberhinaus kann es Graphen in thematisch zueinander passende Teile zerlegen, was unter anderem die Analyse von sozialen Netzwerken und anderen Graphstrukturen ermöglicht.

Prof. Jens Lehmann, Lead Scientist am Fraunhofer IAIS: »Mit SANSA 0.3 ist uns ein wesentlicher Schritt gelungen um die Analyse von großen Wissensbasen für Entwickler und Data Scientists einfacher zu machen. Im letzten halben Jahr hat unser Team sehr gut zusammengearbeitet um eine ganze Reihe von Analysealgorithmen zu integrieren. Bereits in diesem frühen Stadium haben wir zahlreiche Anfragen von anderen Projekten und Firmen erhalten, die SANSA gerne verwenden möchten.»

SANSA kann in vielen Bereichen eingesetzt werden, wie etwa in innovativen Anwendungen in der Medizin und Biologie, um das Wissen in digitalen Bibliotheken zu analysieren und um große Wissensbasen mit Allgemeinwissen, wie »DBpedia«, zu verarbeiten.

Der Software-Stack wurde vom Fraunhofer IAIS, der Universität Bonn und dem Institut für Angewandte Informatik Leipzig unter Leitung von Prof. Jens Lehmann entwickelt. Zielgruppe des Frameworks sind Data Scientists, die mit großen Wissensgraphen arbeiten möchten. SANSA wird am Fraunhofer IAIS in den Projekten Big Data Europe, HOBBIT, SLIPO und BETTER eingesetzt. Alle sechs Monate erscheint eine neue Version von SANSA.

Hier finden Sie weitere Information zu SANSA Version 0.3