Sowohl in unserer Gesellschaft als auch in vielen Unternehmen existiert ein großer Teil des Wissens in Form von Texten. Oft sind diese Texte aber nur in Form von Fotos von Dokumenten oder als eingescannte Bilder vorhanden. In dieser Form lassen sich die Dokumente weder bearbeiten noch gezielt nach Inhalten durchsuchen.
Mit unseren Lösungen zur Dokumentenerschließung machen wir das Wissen aus Dokumenten zugänglich, also durchsuchbar und bearbeitbar. Von dieser Technologie profitieren Verlage, Bibliotheken, öffentliche Verwaltungen und Unternehmen. Wir entwickeln auf Ihre individuellen Bedürfnisse zugeschnittene Systeme und bieten unsere Services zur Dokumentenerschließung auch als Dienstleitungen an.
Unsere Dokumentenerschließung basiert auf einem dreistufigen Verfahren. Im ersten Schritt werden die Dokumente bei Bedarf digitalisiert und die Qualität vollautomatisch optimiert, indem beispielsweise Risse und Falzmarken entfernt sowie das Schriftbild geglättet und Bilder geschärft werden.
Im zweiten Schritt erfolgt die inhaltliche Erschließung. Dazu werden Bilder mittels Optical Character Recognition (OCR) in Texte umgewandelt. Die von uns entwickelte OCR-Engine ist in vielen Bereichen führend, insbesondere wenn es um die Erkennung schwer lesbarer Dokumente geht. Zusätzlich zur Umwandlung von Bild in bearbeitbaren Text können zum Beispiel aus Zeitungsseiten einzelne Artikel herausgetrennt werden.
Im dritten Schritt, der semantischen Exploration, können durch Textmining-Verfahren unter anderem bekannte Persönlichkeiten wie Politiker oder Stars identifiziert werden. Diese bilden dann die Grundlage zur Anreicherung und Verknüpfung der Dokumente mit Inhalten aus weiteren Quellen.
Unsere Technologie wird unter anderem in den folgenden Bereichen angewendet:
- KI-basiertes Auslesen von Informationen im Rechnungswesen
- Retrodigitalisierung von Archivbeständen
- Dokumentenworkflows