Multimedia Pattern Recognition

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Die Forschungsgruppe Multimedia Pattern Recognition entwickelt effiziente und zuverlässige Verfahren zur Mustererkennung in Sprach- und Bilddaten. Je nach Anwendung setzen wir dabei unterschiedliche Vorverabeitungs- und Klassifikationsverfahren ein. In Audiosignalen können wir so Sprache oder Sprecher erkennen; in der Bild- und Videoanalyse erkennen unsere Algorithmen zum Beispiel Objekte oder Handlungen oder die Struktur von Dokumenten. Dementsprechend werden unsere Verfahren auch mit großem Erfolg im Media-Indexing oder Media-Mining eingesetzt.

Kompetenzen

Dokumentenanalyse und -verarbeitung

Wir sind Experten für die robuste automatische Verarbeitung von Dokumenten wie etwa Zeitungen, Zeitschriften, Bücher und Akten.

Unser vollständig automatisierter Workflow zur Dokumentenverarbeitung umfasst folgende Schritte:

  • Qualitätsoptimierung gescannter Dokumente
  • Ausschneiden und Entzerren der Seiten
  • Layoutbasierte Seitenerkennung und -segmentierung
  • Automatische Erkennung von Metadaten wie Ausgabedatum, Seitenzahl, ...
  • OCR mit pixelgenauer Wortposition auf der Seite
  • automatisiertes Qualitätsmanagement
  • Ausgabe in ein vom Kunden spezifiziertes XML-Format

Bild- und Videoanalyse

Bei der Bild- und Videoanalyse sind wir Experten für effiziente und zuverlässige Computer Vision Verfahren. Unsere lernfähigen Methoden zur Mustererkennung identifizieren Szenengrenzen in Videos, tracken bekannte oder unbekannte Objekte in Videodaten und identifizieren und kategorisieren wichtige Objekte, Situationen und Personen. Für Partner in der Industrie entwickeln wir unter anderem Verfahren zur:

  • Aktionserkennung
  • Gefahrenerkennung
  • Frequenzmessung für den Handel
  • Visuellen Qualitätskontrolle in Produktionsprozessen

Sprach- und Audioanalyse

Zur automatischen Generierung von Metadaten für Audioquellen entwickeln wir erfolgreiche Methoden zur Sprach- und Audioanalyse. Die extrahierten Metadaten erlauben es, umfangreiche Audioarchive automatisch zu erschließen. Wir sind insbesondere Experten für die strukturelle Analyse von Audiodaten sowie die vokabularunabhängige Spracherkennung. Unsere langjährige Erfahrung umfasst dabei zuverlässige Methoden zur:

  • Vokabularunabhängigen Spracherkennung auf großen Datenbeständen
  • Spracherkennung in verrauschten Umgebungen
  • Sprecherverfolgung und Sprechererkennung
  • Detektion von Audio Events

Weitere Informationen

Wissenschaftliches Arbeitsgebiet