Dezentrale Suche

In vielen Szenarien verteilen sich die für eine bestimmte Aufgabe erforderlichen Daten auf eine Vielzahl von Systemen und Webdiensten. Beispiele sind Headhunter und Personaler, die mit der Erfassung von Angaben zu den Fähigkeiten und Qualifikationen der Kandidaten für eine ausgeschriebene Stelle viel Vorarbeit leisten. Selbst Kriminalbeamte tun sich mitunter schwer, alle Daten über eine verdächtige Person oder Organisation oder über ein illegales Produktangebot zusammenzutragen und die Zusammenhänge herzustellen (z. B. wer womit handelt).

Ein Großteil der dazu benötigten Daten ist zwar online verfügbar, z. B. über soziale Netzwerke oder auch in privaten Datenbanken, ist aber über diverse Standorte und Systeme verstreut. Die Informationsquellen ändern sich ständig, und aufgrund rechtlicher Restriktionen bzgl. Datenschutz und Schutz der Privatsphäre ist es weder zulässig noch erwünscht, derartige Suchergebnisse vorbehaltlos zu speichern.

In diesem Fall bieten sich technische Lösungen wie »On-Demand-Suche« und »Information Integration« an. Dennoch müssen Herkunft und Quelle der Suchergebnisse transparent sein. Verschiedene Quellen geben ihre Daten in unterschiedlichen Datenformaten und Schemata an und haben unterschiedliche Zugriffsbeschränkungen; die Heterogenität sämtlicher Daten ist zu berücksichtigen.

Ungeachtet der Komplexität der Daten muss die Benutzeroberfläche bei den Recherchen leicht anzuwenden und verständlich sein, denn schließlich befassen sich sachkundige Personaler bzw. strafrechtliche Ermittler damit, nicht aber Datenschutzexperten.

Unsere Lösung: FuhSen – Eine semantische, dezentrale Hybrid-Suchmaschine

Die Suchmaschine »FuhSen« bietet die Möglichkeit der dezentralen Suche nach verteilten Informationen. Nach der Eingabe eines Stichworts ruft sie verschiedene Datenquellen im Internet (soziale Netzwerke, e-Commerce-Plattformen, Open Data) ab und erfasst deren Daten. Die Suchergebnisse werden in ein kohärentes Wissensdiagramm integriert und lassen sich filtern, veranschaulichen und zusammengefasst darstellen.

© Fraunhofer IAIS

Die semantische Komponente von FuhSen erfasst Daten über Personen, Organisationen und Erzeugnisse und integriert Teildaten auf Abruf. Darüber hinaus wenden wir modernste semantische Techniken wie Entitätserkennung, -vernetzung, -gewichtung und -zusammenfassung an.

© Fraunhofer IAIS

Projektbeispiel

»LiDaKrA – Integration vernetzter Daten und Früherkennung von Phänomenen der Organisierten Kriminalität«, gefördert vom Bundesministerium für Bildung und Forschung.