Crossmediale Suche in großen Archiven
Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

VITALAS - Video and Image Indexing & Retrieval in the Large Scale
Umfangreiche audiovisuelle Daten stehen zwar in digitaler Form zur Verfügung, können aber wegen fehlender oder unvollständiger Metadaten nicht sinnvoll genutzt werden. Im Rahmen des Forschungsprojekts VITALAS sollen neue Konzepte zur inhaltlichen Erschließung großer audiovisueller Archive erarbeitet werden.
Aktuell verfügbare Systeme zur automatischen Indizierung von AV-Material setzen in der Regel nur eine Modalität ein, um eine Videosequenz oder ein Bild zu beschreiben. In VITALAS sollen die verschiedenen Modalitäten Text, Audio und Video kombiniert werden, um zuverlässliche und skalierbare Detektoren zu erhalten.
Die Idee: häufig ist eine Modalität nicht ausreichend, um eine Videosequenz genau zu beschreiben.
Beispiel: Auffinden ähnlicher Videosequenzen
Ein Redakteur gibt eine Videosequenz vor, und möchte ähnliche Sequenzen im Archiv finden. Das System schlägt nun automatisch ähnliche Sequenzen vor, d.h.
- Mit ähnlichen textuellen Metadaten (z.B. Regisseur, Schauspieler, Sendereihe).
- Mit ähnlichem Aussehen (z.B. vorherrschende Farbe, auftretende Formen).
- Mit ähnlichen akustischen Eigenschaften (z.B. ähnliche Hintergrundgeräusche, ähnliche Programm-Jingles).
- Mit ähnlichem Gesprächsinhalt (aus der Spracherkennung).
Mit Hilfe des VITALAS-Systems kann eine Videosequenz nun mit einer Kombination dieser Ähnlichkeitsmaße modelliert werden.
Unser Beitrag
Das Fraunhofer IAIS ist verantwortlich für die akustische Analyse in VITALAS. Wir entwickeln und evaluieren verschiedene Systeme zur Beschreibung der akustischen Information:
- State-of-the-Art Spracherkennung auf Wort- und Silbenbasis zur vokabularunabhängigen Sprachsuche in großen Archiven (siehe auch AudioMining).
- Automatische Strukturierung von Audio-Material (semantische akustische Segmentierung und Sprechergruppierung)
- Unscharfe Detektion von Programm- oder Werbejingles
- Detektion von Audiokonzepten (Musik, Sprache, …)
Test Case: 1.000.000 Bilder, 10.000 Stunden Video

- Archivierte Nachrichtensendung
Im Rahmen des Projekts stellen die Projektpartner Belga, INA und IRT umfangreiche Daten aus der Anwendungsdomäne zur Verfügung, die mit Hilfe der automatischen Verfahren durchsuchbar gemacht werden.
Das Datenmaterial ist überaus heterogen: zum Test Case gehören im Videobereich neben Nachrichten- und Magazinsendungen zum Beispiel auch Diskussionsrunden oder Unterhaltungsshows.
Projektpartner
- ERCIM - European Research Consortium for Informatics and Mathematics
- EADS - Defence and Security Systems
- CWI - Stitching Centrum voor Wiskunde en Informatica
- INRIA - Institut National de Recherche en Informatique et en Automatique
- Fundación Robotiker
- INA – Institut National de l’Audiovisuel
- University of Sunderland
- CERTH-ITI – Centre for Research and Technology Hellas
- Belga - Agence télégraphique de Presse
- IRT - Institut für Rundfunktechnik
- Codeworks
Assoziierter Partner
- AFP - Agence France Press
Förderer
Europäische Union, 6. Rahmenprogramm, IST
Laufzeit
01/2007 – 12/2009


Lesezeichen setzen bei