Multimedia Pattern Recognition
Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Die Forschungsgruppe Multimedia Pattern Recognition befasst sich mit Algorithmen und Verfahren zur automatischen Segmentierung und Erkennung von Mustern und Objekten in Sprach- und Bilddaten. Das Arbeitsgebiet umfasst abhängig von den Quelldaten Methoden zur Signalanalyse, um für die Mustererkennung relevante Merkmale zu erzeugen, und verschiedenste Klassifikationsverfahren. Daraus ergeben sich konkrete Algorithmen für die Sprachverarbeitung, wie beispielsweise Sprach- und Sprecherkennung. Im Bild- und Videobereich kommen Algorithmen zur Objektdetektierung und Segmentierung zum Einsatz. Diese lassen sich auch für die Analyse von Dokumenten anwenden. Die automatische Mustererkennung für Sprach- und Bilddaten hat zum Ziel, umfangreiche Mengen an audio-visuellen Daten maschinell zu erschließen. In Medien-relevanten Anwendungen wird daher häufig auch von Medienindexing bzw. Media-Mining gesprochen.
Kompetenzen
Dokumentenanalyse und -verarbeitung
Unsere Kompetenz liegt speziell in der robusten automatischen Verarbeitung von Dokumenten. Diese Dokumente können z. B. Zeitungen, Zeitschriften, Bücher und Akten sein. Wir verfügen über einen vollständig automatisierten Workflow zur Dokumentenverarbeitung.
Der Workflow umfasst folgende Schritte:
- Qualitätsoptimierung der gescannten Dokumente
- Ausschneiden und Entzerren der Seiten
- Layoutbasierte Seitenerkennung und -segmentierung
- Automatische Erkennung von Metadaten wie Ausgabedatum, Seitenzahl, ...
- OCR mit pixelgenauer Wortposition auf der Seite
- automatisiertes Qualitätsmanagement
- Ausgabe in ein vom Kunden spezifiziertes XML-Format
Dazu bieten wir ein grafisches Tool zur Qualitätskontrolle und Nachkorrektur der Verarbeitungsergebnisse an.
Bild- und Videoanalyse
In der Bild- und Videoanalyse setzten wir unterschiedliche Verfahren des Maschinensehens bzw. der Bewegtbildanalyse zur inhaltlichen Erschliessung von audiovisuellen Daten ein. Lernfähige Mustererkennungsverfahren identifizieren Szenengrenzen im Video, tracken bekannte oder unbekannte Objekte in Videodaten und identifizieren und kategorisieren wichtige Objekte, Situationen und Personen.
Sprach- und Audioanalyse
Zur automatischen Generierung von Metadaten für Audioquellen setzen wir zahlreiche Methoden aus den Bereichen Sprach- und Audioanalyse ein. Mit Hilfe der extrahierten Metadaten können umfangreiche Audioarchive automatisch erschlossen werden. Zu unseren Kompetenzen zählt insbesondere die strukturelle Analyse von Audiodaten sowie die vokabularunabhängige Spracherkennung. Im Rahmen verschiedener Forschungsprojekte beschäftigt sich die Gruppe mit aktuellen Verfahren zur Informationsextraktion aus Audiodaten. Hierzu zählen etwa:
- Vokabularunabhängige Spracherkennung auf großen Datenbeständen
- Spracherkennung in verrauschten Umgebungen
- Sprecherverfolgung und Sprechererkennung
- Detektion von Audio Events



Lesezeichen setzen bei