Technologien für die Dokumentenanalyse

Im Kontext der Digitalisierung von Unternehmensprozessen wird die automatische Verarbeitung umfangreicher Dokumentensammlungen immer wichtiger. Dazu müssen die Dokumente automatisch strukturiert, erkannt und ausgelesen werden. Zu diesem Zweck kann unsere weltweit führende Technologie als Service genutzt oder als Softwarebibliothek lizensiert werden.

Umfangreiche Softwarebibliothek  

Zur Verarbeitung Ihrer Dokumente – egal ob Zeitungen, Zeitschriften, Verträge, Geschäftsberichte und andere für das Unternehmen relevante Unterlagen – kann eine Vielzahl an Algorithmen, die auf Mustererkennung, Bildverarbeitung und Deep Learning basieren, genutzt werden. In der Softwarebibliothek, die Partnern und Kunden unter Lizenz zur Verfügung gestellt wird, sind Methoden zur Bildoptimierung, Segmentierung, OCR, Layouterkennung und Textanalyse enthalten. Diese werden je nach Kundenanforderungen angepasst, um ein optimales Arbeitsergebnis zu erreichen.

Benchmark: Innovative Algorithmen zur Dokumentenanalyse

Wir optimieren und erweitern die Technologien fortlaufend auf der Basis unserer langjährigen Expertise zum Thema Dokumentenanalyse. Diese stellen wir regelmäßig bei internationalen Benchmarking-Wettbewerben unter Beweis. Unser Ziel ist es, innovative Algorithmen zu entwickeln, die die Qualität und Geschwindigkeit der Analyse optimieren. Darüber hinaus erforschen wir Lösungen für neue Problemstellungen wie die Tabellenstrukturerkennung oder Dokumentenklassifikation.    

Automatischer Workflow

Unser vollständig automatisierter Workflow zur Dokumentenverarbeitung umfasst folgende Schritte.

1. Aufbereitung der Digitalisate

  • Freistellen
  • Entzerren
  • Rotationskorrektur
  • Schmutzentfernung
  • Binarisierung oder Farbreduktion

2. Messung der Dokumentenqualität

  • Schärfemessung
  • Automatische Detektion und Auswertung von Farbreferenzen

3. Logische Layout-Dokumentenanalyse

  • Seitensegmentierung
  • Layoutstrukturerkennung
  • Tabellendetektion
  • Tabellenstrukturerkennung

4. OCR - Optical Character Recognition

  • Fontklassifikation
  • Schriftverbesserung Bleisatz
  • Graustufen OCR
  • Video OCR

5. Klassifikation der Dokumente

  • Extraktion von erweiterterten Merkmalen beziehungsweise Metadaten
  • Klassifizierung in nutzerdefinierten Hierarchien