ARD-Mediathek

ARD-Mediathek Audio Mining Nutzung

Die ARD-Mediathek enthält eine Vielzahl von audiovisuellen Beiträgen der neun Landesrundfunkanstalten. Zu jedem Beitrag gibt es bereits manuell annotierte Metadaten wie beispielsweise der Titel, die Sendereihe, aber auch Kurzbeschreibungen. Mit Hilfe unseres Audio-Mining-Systems werden die Beiträge tiefer erschlossen und die vorhandenen Metadaten um das Transkript der gesprochenen Sprache erweitert. Zusätzlich werden automatisch die für einen Beitrag wesentlichen Schlagworte ermittelt. 

Umsetzung

Über eine Schnittstelle stellt die ARD-Mediathek Verknüpfungen auf die zu analysierenden Beiträge bereit. Diese Schnittstelle wird durch einen Crawler analysiert und die Verarbeitung von neuen Beiträgen angestoßen. Die Verarbeitung erfolgt durch das Audio-Mining-System, welches auf einem Verarbeitungscluster läuft, um eine schnelle Verfügbarkeit der Ergebnisse – auch zu Zeiten von Verarbeitungsspitzen – zu erreichen. Über eine Monitoring-Oberfläche wird das ARD-Team in die Lage versetzt, den Verarbeitungsstand zu überwachen, aber auch gegebenenfalls einzelne Beiträge in ihrer Priorität zu verändern. Die durchgeführte Verarbeitung besteht insbesondere aus der Spracherkennung und einer darauf aufbauenden Schlüsselwort-Extraktion. 

Stabiler Betrieb

Seit April 2015 verarbeitet das Fraunhofer IAIS in einem eigenem Verarbeitungs-Cluster ständig die neu veröffentlichten Beiträge vollautomatisiert und lädt die gewonnenen Metadaten auf die Server der ARD-Mediathek hoch. In diesem Zeitraum wurden bereits mehr als 650 000 Beiträge verarbeitet. Durch ein intelligentes Scheduling wird auch in Zeiten, in denen sehr viele Beiträge veröffentlich werden, die Last verteilt und somit eine schnelle Verfügbarkeit der Ergebnisse gewährleistet.

Nutzen für den Kunden

Die angereicherten Metadaten bilden nun eine gute Grundlage für eine Verbesserung der Suche innerhalb der Mediathek. Sie können auch genutzt werden, um eine Optimierung von Suchmaschinen durchzuführen oder eine inhaltsbasierte Recommendation zu ermöglichen. Dies trägt zu Verlängerung der Verweildauer im Angebot bei und verbessert die Auffindbarkeit von Inhalten.