FERARI – Verteilte Systeme in Echtzeit analysieren

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Die Echtzeitanalyse verteilter Systeme stellt Entwickler im Big-Data-Sektor noch immer vor große Herausforderungen. Viele unabhängige Einheiten – wie etwa die einzelnen Maschinen in Industrieunternehmen – liefern ununterbrochen Daten, die darüber hinaus extrem kurzlebig sind, und bringen damit die etablierten Lösungen an ihre Grenzen. Um solch gewaltige Datenströme systemweit zu analysieren, sind grundlegend neue Strukturdesigns erforderlich. Zu diesem Zweck wurde das Projekt FERARI ins Leben gerufen. Darin arbeiten sechs Partner aus Wissenschaft und Wirtschaft unter der Leitung des Fraunhofer IAIS an Open-Source-Lösungen, die den Anforderungen solcher Anwendungen gerecht werden. Eine große Rolle spielt bei der Entwicklung die intuitive Handhabung der Systeme, so dass sie auch von Anwendern mit wenigen Vorkenntnissen genutzt werden können. Getestet und bewertet werden die Lösungen in realen Big-Data-Anwendungen der Telekommunikationsbranche und in Cloud-Systemen.

Lösungsansätze und Technologien

Fester Bestandteil der Architektur sind Methoden des »Complex Event Processing« und hochentwickelte Machine-Learning-Algorithmen. Um die gewaltigen und flüchtigen Datenaufkommen in Echtzeit analysieren zu können, nimmt zudem die Maschinenebene einen zentralen Platz in der Systemarchitektur ein: Die datenverarbeitenden Sensoren der einzelnen Systemkomponenten entscheiden selbstständig, ob und welche Daten sie dem zentralen System liefern. Auf die Weise reduzieren sie ihren Beitrag zum Gesamtdatenstrom auf das Wesentliche.

Anwendungen

Die im FERARI-Projekt entwickelten Lösungen lassen sich in den unterschiedlichsten Branchen zum Einsatz bringen. Erprobt wurden sie bereits in den Anwendungsszenarien »Mobilfunk« und »Cloud Computing«.

Fraud Detection in der Mobilfunkbranche

Mobilfunknutzer und ihre Kunden geraten immer häufiger in das Visier von Betrügern. Dabei entstehen sowohl bei Anbietern als auch bei den Nutzern immense Schäden. Für Telekommunikationsanbieter ist es daher essentiell, betrügerisches Verhalten in ihren Netzen aufzuspüren (Fraud Detection). Diese Aufgabe bringt jedoch große Herausforderungen mit sich: Zum einen handelt es sich um ein tatsächliches Big-Data-Problem. So ist die Datenmenge zu groß, um zentralisiert verarbeitet werden zu können (volume), ihre Beschaffenheit ist aufgrund der vielfältigen Datenquellen und Datentypen – von Call Data Records über netzinterne Informationen bis hin zu Kundendaten – ausgesprochen heterogen (variety) und die betrügerischen Aktivitäten müssen in möglichst kurzer Zeit entdeckt werden – am besten in Echtzeit (velocity). Zum anderen verändern Betrüger andauernd ihr Verhalten, so dass man dynamische Modelle und Lernverfahren benötigt, um mit ihnen Schritt zu halten.

All diese Herausforderungen gehen wir im FERARI-Projekt an: Mit einer Big-Data-Architektur, die auch massive Datenströme verteilt und in Echtzeit verarbeiten kann und adaptiven Lernverfahren, die in die Architektur integriert sind, wollen wir Betrugsfälle nicht nur schneller und genauer erkennen, sondern vor allem viele Schritte der Betrugserkennung automatisieren, die bislang mit hohem Personalaufwand verbunden sind

Cloud Health Monitoring

Cloud-Computing-Lösungen haben sich in den letzten Jahren in sämtlichen IT-Sparten etabliert und werden heute im großen Stil aufgebaut und vermarktet. Zu einem zentralen Problem wird jedoch mit zunehmender Komplexität dieser Systeme die Wartung der Hardware. Der Ausfall eines Rechners kann zwar teilweise kompensiert werden, führt aber nicht selten zu einem kurzzeitigen Ausfall des Services (und damit zu Problemen beim Kunden) und bedeutet darüber hinaus einen hohen Reparaturaufwand. Beides kann auf ein Minimum reduziert werden, wenn man latente Hardware-Defekte, die noch nicht zu einem Ausfall führen, frühzeitig erkennt und eine Reparatur oder einen Austausch der Hardware rechtzeitig planen kann. Daher werden in Cloud-Systemen viele Sensoren verbaut und überwacht. So kann zum Beispiel eine überhöhte CPU-Temperatur ein Hinweis auf einen baldigen Ausfall sein. Allerdings ist Menge an Daten, die durch die Vielzahl an Sensoren entsteht, viel zu groß, um zentral überwacht zu werden. Hinzu kommt, dass einfache Schranken an Sensor-Werte nur selten gute Vorhersagen erlauben.

Im FERARI-Projekt entwickeln wir darum Verfahren, die mit Machine-Learning-Algorithmen latente Hardware-Fehler frühzeitig anhand von Sensor-Logs erkennen können. Die Architektur des Systems erlaubt darüber hinaus, einen Großteil der Berechnung der dafür benötigten Modelle auf dem lokalen Rechner durchzuführen, wodurch die Daten nicht mehr zentralisiert werden müssen und sich die Kommunikation auf das Notwendigste beschränkt.

Weitere Informationen