Von Pixeln zu Inhalten: Wir machen Wissen zugänglich.

Document Analytics

Sowohl in unserer Gesellschaft als auch in vielen Unternehmen existiert ein großer Teil des Wissens in Form von Texten. Oft sind diese Texte aber nur in Form von Fotos von Dokumenten oder als eingescannte Bilder vorhanden. In dieser Form lassen sich die Dokumente weder bearbeiten noch gezielt nach Inhalten durchsuchen.

Mit unseren Lösungen zur Dokumentenerschließung machen wir das Wissen aus Dokumenten zugänglich, also durchsuchbar und bearbeitbar. Von dieser Technologie profitieren Verlage, Bibliotheken, öffentliche Verwaltungen und Unternehmen. Wir entwickeln auf Ihre individuellen Bedürfnisse zugeschnittene Systeme und bieten unsere Services zur Dokumentenerschließung auch als Dienstleitungen an.

Unsere Dokumentenerschließung basiert auf einem dreistufigen Verfahren. Im ersten Schritt werden die Dokumente bei Bedarf digitalisiert und die Qualität vollautomatisch optimiert, indem beispielsweise Risse und Falzmarken entfernt sowie das Schriftbild geglättet und Bilder geschärft werden.

Im zweiten Schritt erfolgt die inhaltliche Erschließung. Dazu werden Bilder mittels Optical Character Recognition (OCR) in Texte umgewandelt. Die von uns entwickelte OCR-Engine ist in vielen Bereichen führend, insbesondere wenn es um die Erkennung schwer lesbarer Dokumente geht. Zusätzlich zur Umwandlung von Bild in bearbeitbaren Text können zum Beispiel aus Zeitungsseiten einzelne Artikel herausgetrennt werden.

Im dritten Schritt, der semantischen Exploration, können durch Textmining-Verfahren unter anderem bekannte Persönlichkeiten wie Politiker oder Stars identifiziert werden. Diese bilden dann die Grundlage zur Anreicherung und Verknüpfung der Dokumente mit Inhalten aus weiteren Quellen.

Unsere Technologie wird unter anderem in den folgenden Bereichen angewendet:

  • KI-basiertes Auslesen von Informationen im Rechnungswesen
  • Retrodigitalisierung von Archivbeständen
  • Dokumentenworkflows

Leistungsportfolio

Wir erschließen Dokumente, unter anderem für Verwaltungen, Verlage, Bibliotheken, Software-Hersteller, Banken und Krankenhäuser. Wir entwickeln individuelle Lösungen, die wir in Ihr Unternehmen integrieren. Zudem stellen wir unsere Services zur Wissenserschließung als Dienstleistung zur Verfügung.

Lizenzierung der KI-basierten Software zur Dokumentenanalyse

Bei gut lesbaren Dokumenten erkennen gängige Texterkennungsprogramme gegenwärtig rund 99 Prozent eines Textes korrekt. Abhängig von der Qualität der Vorlage nimmt die Erkennungsrate aber ab, etwa bei historischen Schriften oder bei Dokumenten, die durch Hintergrundtexturen oder Verzerrungen besonders schwer lesbar sind. Um auch solche Fälle abzudecken, haben wir mit Deep-Learning-Methoden ein selbstlernendes OCR-System entwickelt. Diese Lösung kann über unseren Vermarktungspartner, die DE-Patentverwertung GmbH, getestet und lizenziert werden.

Entwicklung von Prototypen

Wir entwickeln Prototypen für neue Problemstellungen und Ihre speziellen Anwendungen in der Dokumentenanalyse. Dabei optimieren wir die Qualität und Geschwindigkeit der Analyse.

Einbindung in Produktivsysteme

Unsere Services und Workflows sind vollständig automatisiert. Wir binden sie in Ihre Produktivsysteme ein.

Auftragsverarbeitung

In Ihrem Auftrag verarbeiten wir Dokumente direkt auf unseren Servern. Ein Beispiel ist die Digitalisierung von Archiven und Zeitungsbeständen.

Highlights

Erschließung von Dokumenten für die Deutsche Digitale Bibliothek

Die Deutsche Digitale Bibliothek hat das Ziel, die in Deutschland verfügbaren Kulturgüter und wissenschaftlichen Informationen zu bündeln und über ein Internetportal einem breiten Publikum zugänglich zu machen. Dazu müssen Informationen aus Bibliotheken, Archiven, Museen und Wissenschaftseinrichtungen digitalisiert, verfügbar gemacht und verknüpft werden. Aufbauend auf unseren Erfahrungen mit der Analyse, Erschließung und Präsentation digitalen Kulturgutes haben wir mit unseren Partnern das technische Gesamtkonzept erstellt und die Arbeiten zur Realisierung der Kerninfrastruktur der Deutschen Digitalen Bibliothek koordiniert.