SAKE – Semantische Analyse komplexer Ereignisse

Ziel von SAKE ist die Entwicklung eines modularen Frameworks für die Verarbeitung von Ereignisdaten aus Produktionsanlagen. Dabei besteht das Hauptziel in der rechtzeitigen Erkennung sowie in der datengetriebenen Vorhersage von Betriebsfehlern in Produktionsanlagen. Zur Sicherstellung des generischen Einsetzbarkeit der Lösung wird einem zweiten Anwendungsfeld gezeigt, dass sich SAKE auch für das Monitoring sowie die Fehlererkennung in IT-Netzwerken eignet. Im Gegensatz zu existierenden Lösung werden dabei Semantic-Web-Standards zur Speicherung der Daten sowie zum maschinellen Lernen von Fehlerbeschreibung eingesetzt werden.

Sicherstellung einer eindeutigen Semantik für Nachrichten

Existierende Protokolle für die Übertragung von Ereignisdaten beschreiben wie Daten zu übertragen sind aber erlauben keine explizite Modellierung der Semantik dieser Daten. Damit ist die Integration von großen, heterogenen Datenströmen aus unterschiedlichen Quellen sehr mühsam oder gar nicht unmöglich. SAKE adressiert dieses Problem, indem alle Ereignisse im Semantic-Web-Datenmodell RDF repräsentiert werden. Damit wird sichergestellt, dass die Bedeutung einzelner Fakten sowohl für die späteren Analysealgorithmen als auch für Menschen eindeutig ist. Ferner werden existierende RDF-Vokabulare wiederverwendet. Somit wird die Integration der internen Unternehmensdaten mit externen Datenquellen (als Hintergrundwissen) vereinfacht.

Skalierbare Machine Learning Verfahren

Moderne Lernverfahren zur Verarbeitung von Big Data basieren auf statistischen Ansätzen wie Support Vector Machines, Conditional Random Fields oder gar neuronalen Netzen. Diese Verfahren können in Verbindung mit Sampling zur Verarbeitung großer Datenmengen verwendet werden. SAKE setzt auf das Gegenstück zum Sampling aus der Logik, d.h. die Modularisierung von RDF-Daten. Mit Hilfe dieses Verfahrens wird sichergestellt, dass ausschließlich für das Lernen relevante RDF-Daten im Rahmen der Extraktion von Fehlermustern sowie für die Vorhersage von Fehlern im Live-Betrieb von Anlagen genutzt werden. Damit wird ebenso sichergestellt, dass die in SAKE eingesetzten Lernverfahren auch auf Petabytes von Daten eingesetzt werden können.

Generierung von nachvollziehbaren Lernergebnissen

Statistische Verfahren erreichen eine hohe Genauigkeit bei Aufgaben wie der Klassifizierung von Betriebsfehlern. Die von diesen Ansätzen produzierten Klassifikatoren sind jedoch für Endanwender nicht fassbar und enthalten keine Beschreibung der Fehlerursachen. SAKE setzt auf Class Expression Learning (CEL) in Kombination mit Verfahren zur automatischen Generierung von natürlicher Sprache. Das Ergebnis von CEL-Verfahren sind logische Ausdrücke, welche regelbasiert und vollautomatisch in natürliche Sprache transformiert werden können. Somit wird SAKE seinen Nutzern erlauben nicht nur zu wissen, dass ein Fehler vorliegt, sondern auch zu verstehen, warum dieser Fehler vorliegt.