Dokumentenverarbeitung mit DocBits Version 2.0

1. November 2022
| Daniel Jordan

Dokumentenverarbeitung mit DocBits Version 2.0

Die Extraktion von Informationen aus PDFs und gescannten Dokumenten ist vielleicht nicht die interessanteste oder herausforderndste Thematik des Jahrhunderts. Es gibt einem nicht die Möglichkeit einen Roboter zu steuern, virtuelle Spiele zu spielen oder seine Kreativität auszuleben. Stattdessen ist es reine Fleißarbeit, etwas, das die “KI” zu automatisieren versprochen hat, jedoch bisher nicht erreicht hat. Nichtsdestotrotz stellt die Dokumentenverarbeitung, also die Umwandlung analoger Daten in ein digitales Format, eine subtile Herausforderung dar – eine Aufgabenstellung, die so einfach und doch so schwer zu lösen ist.

Dokumentenverarbeitung mit DocBits Version 2.0, die Umwandlung analoger Daten in ein digitales Format – eine so einfache und doch schwer zu lösende Aufgabe.

Nach Abschluss verschiedener Projekte wurde uns bei Polydocs klar, dass die Verarbeitung von Dokumenten allgegenwärtig ist – von Unternehmen bis zu Nichtregierungsorganisationen, von kleinen Betrieben bis zu Großkonzernen – es gibt immer ein PDF, das digitalisiert werden muss! Die Verarbeitung von Dokumenten ist demnach also nicht nur schwierig, sondern vielleicht auch dringend notwendig. In diesem Blogbeitrag wird ein Rahmen für die Entwicklung von Dokumentenverarbeitungslösungen beschrieben und woran wir für DocBits Version 2.0 arbeiten.

Die Dokumentenverarbeitung mit DocBits Version 2.0 basiert auf drei Prinzipien:

Anmerkungen sind das A und O: Es gibt kein Patentrezept. Selbst wenn Sie ein gutes Modell haben, müssen Sie immer noch eine Feinabstimmung mit Ihren Daten vornehmen. Idealerweise sollten Sie ein Annotationswerkzeug mit eingebauter Feinabstimmung haben oder flexibel genug sein, um diesen Mechanismus zu integrieren.

Erstellen von multimodalen Modellen: Wir verlassen uns bei der Analyse eines Dokuments nicht nur auf den Text. Stattdessen übernehmen wir alle Informationen (Position, Textgröße usw.) als Kontext, um diese als Merkmale nutzen zu können. Eine reine OCR (optische Zeichenerkennung) oder ein rein textbasierter Ansatz sind suboptimal, um diese Aufgabe zu lösen.

Immer korrigieren: OCR– und Dokumentenlayoutmodelle sind nicht immer perfekt, daher ist es wichtig, dass der Mensch die Ergebnisse des Systems korrigiert. Sie können die Korrektur verwenden, um Ihr Modell neu zu trainieren oder als vorletzten Schritt vor dem Speichern der Ergebnisse in einer Datenbank.

Formularverständnis

In DocBits haben wir alle oben genannten Grundsätze berücksichtigt. Das Diagramm, beschreibt den typischen Dokumentenverarbeitungsworkflow:

Anmerkungen sind das A und O

Beschriftungen sind bei jeder Lösung für die Dokumentenverarbeitung unabdingbar. Dokumente neigen dazu, sehr unterschiedlich auszusehen, selbst wenn sie unterscheidbare Muster haben. Sie brauchen also ein Werkzeug, mit dem Sie Dokumente zuverlässig beschriften können.

Multimodale Modelle erstellen

in weiterer Grund, warum die Verarbeitung von Dokumenten eine so attraktive Herausforderung darstellt, liegt darin, dass sie von Natur aus multimodal ist – textliche und visuelle Informationen stehen ohne weiteres zur Verfügung. Jedoch neigen grobe Lösungen für die Dokumentenverarbeitung leider dazu, nur eins der beiden Modelle zu nutzen: Bildzentrierte Ansätze beinhalten eine Menge komplexer Geschäftsregeln rund um Begrenzungsrahmen und Textplatzierung, um die erforderlichen Informationen zu erhalten. Sie verlassen sich meist auf Vorlagen, die nicht skalierbar sind. Textzentrierte Ansätze basieren auf NLP-Pipelines für OCR-erfasste Texte. Wobei Textblöcke jedoch nicht mit der Domäne kompatibel sind, auf der diese Modelle ursprünglich trainiert wurden, was zu einer suboptimalen Leistung führt. Glücklicherweise können multimodale Modelle wie DocBits aus textlichen und visuellen Informationen lernen. Für ein bestimmtes Dokument werden nicht nur das Wort und das Bild selbst, sondern auch ihre Positionen eingebettet. Die Interaktionen zwischen ihnen wird dann mit Hilfe mehrerer Vortrainingsziele erlernt.

Das DocBits-Modell lernt sowohl aus textlichen als auch aus visuellen Informationen und lernt die Wechselwirkungen zwischen ihnen

Immer wieder korrigieren

Wir sind nach wie vor der Meinung, dass man selbst bei einem noch so leistungsfähigen Dokumentenverarbeitungssystem menschliches Wissen und menschliche Erfahrung zur Korrektur und Bewertung einbeziehen muss. Human-in-the-loop kann als Endkontrolle für die Ausgabe eines Modells dienen. Wir können die korrigierten Anmerkungen wiederverwenden, um das Modell weiter zu verfeinern und so den Kreislauf zu schließen.

Abschließende Anmerkungen zur Dokumentenverarbeitung mit DocBits Version 2.0

Dieser Blogbeitrag gibt einen Ausblick auf unsere Version 2.0, beschrieben nach wichtigsten Aspekten einer Dokumentenverarbeitungslösung: ein Annotationsmechanismus, ein multimodales Modell und ein Bewertungsschritt. Maschinelles Lernen wurde versprochen, um die manuelle Arbeit zu automatisieren. Aber es scheint, dass wir auf eine Mauer gestoßen sind und stattdessen begonnen haben, kreative Arbeiten zu automatisieren. Meiner Meinung nach haben wir die Suche nach Patentlösungen optimiert: Man füttert ein großes Modell mit Eingaben und erhält die gewünschte Ausgabe. Manuelle Arbeit, wie die Verarbeitung von Dokumenten, ist nicht so. Stattdessen sind sie in der Regel maßgeschneidert: Sie müssen Daten beschriften, Sie müssen alle Elemente Ihres Dokuments berücksichtigen, Sie müssen die Ausgabe Ihres Modells korrigieren – und ein großes einziges Modell reicht dafür nicht aus. Es gibt unterschiedliche Modelle, die Unterschiedliche Dinge extrahieren.

Fordern Sie uns mit Ihren Dokumenten heraus

Dokumentenverarbeitung mit DocBits Version 2.0

Bildnachweis: Header- & Beitragsbild von Freepik

Automatisierung

Juli 9, 2024Juli 8, 2024

OCR vs. IDP Wo liegen die Unterschiede? Die digitale Transformation hat die Art und Weise, wie Unternehmen Dokumente verarbeiten, revolutioniert. Dabei spielen zwei wichtige Technologien eine zentrale Rolle: Optical Character ...

Rechnung

Juli 2, 2024Juli 2, 2024

Die elektronische Rechnung oder E-Rechnung ist in der Bundesverwaltung bereits fest etabliert. Ab dem 1. Januar 2025 wird sie auch für alle Unternehmen zur Pflicht. Was bedeutet das konkret für ...

DocBits

Willkommen in der Zukunft der Arbeitswelt

Juni 18, 2024Juni 17, 2024

Habt ihr euch schon einmal Gedanken darüber gemacht, wie die Zukunft der Arbeitswelt aussehen könnte? Diese Frage beschäftigt nicht nur uns, sondern auch viele andere.

Künstliche Intelligenz

Juni 11, 2024Juni 11, 2024

In der heutigen, sich ständig weiterentwickelnden Geschäftswelt ist die effiziente Verarbeitung von Dokumenten entscheidend.

Rechnung

Mai 21, 2024April 22, 2024

Seit einiger Zeit rückt für Unternehmen die E-Rechnung immer mehr in den Fokus. Doch was genau verbirgt sich hinter diesem Begriff, und warum ist er für Unternehmen so relevant?

PO-Matching

Mühelose Bestellabgleiche in Infor LN und M3

Mai 14, 2024Mai 23, 2024

In der komplexen Welt des Enterprise Resource Planning (ERP) ist die Sicherstellung eines nahtlosen und effizienten Bestellabgleichs ein zentraler Aspekt des Betriebs. Hier setzt die innovative DocBits-Lösung der FELLOWPRO AG ...

Dokumentenverarbeitung mit DocBits Version 2.0

Dokumentenverarbeitung mit DocBits Version 2.0, die Umwandlung analoger Daten in ein digitales Format – eine so einfache und doch schwer zu lösende Aufgabe.

Die Dokumentenverarbeitung mit DocBits Version 2.0 basiert auf drei Prinzipien:

Formularverständnis

Anmerkungen sind das A und O

Multimodale Modelle erstellen

Immer wieder korrigieren

Abschließende Anmerkungen zur Dokumentenverarbeitung mit DocBits Version 2.0

Fordern Sie uns mit Ihren Dokumenten heraus

Dokumentenverarbeitung mit DocBits Version 2.0

Neueste Beiträge

Kontakt