Zeit, Ihre Dokumentenerfassung zu optimieren

Intelligente Dokumentenverarbeitung (IDP) in der Schweiz beim Onboarding, der Rechnungserkennung oder anlässlich Altersverifizierung


Letzte Aktualisierung: 15. Februar 2025


Themen


Automatisierung mit KI

Automatische Dokumentenschwärzung

Automatische Rechnungserkennung

Automatische Altersüberprüfung

Business Analytics (BA)

Business Intelligence (BI)

Computer Vision (CV)

Dark Data Discovery

Geschäftsprozessmanagement (BPM)

Intelligente Verschlagwortung

Maschinelle Metadatenindexierung

Maschinelles Lernen (ML)

Optische Zeichenerkennung (OCR)

"Intelligente Dokumentenverarbeitung konvertiert Bilddaten in Textdaten, und diese wiederum in strategisches Wissen"

Definition der intelligenten Dokumentenverarbeitung (IDP)


Intelligente Dokumentenverarbeitung (IDP) ist im Wesentlichen die Nutzung von Funktionen der künstlichen Intelligenz wie optische Zeichenerkennung (OCR), maschinelles Lernen (ML) und Computer Vision (CV), um geschäftskritische Informationen aus alltäglichen Routinedokumenten (Pässe, IDs, Rechnungen, Formularen) zu erfassen und damit nachgelagerte Unternehmensabläufe zu optimieren.


Strategisches Wissen beim Hochladen und Scanning


360core konvertiert Bilddaten in Textdaten - und verwandelt Textdaten in organisches Firmenwissen. Während unserer externen Dokumentenscandienste (hier) oder dem äquivalenten Aufnahmeprozess durch OCR, erbringt unsere Systemarchitektur zahlreiche Operationen zur Datenanreicherung:


  • Automatische Texterkennung wobei Dokumententext automatisch indiziert wird, so dass einzelne Begriffe oder ganze Satzteile später mühelos mit Volltextsuche zu ermitteln sind
  • Automatische Erkennung des Dokumententyps (Rechnung, Vertrag, E-mail, Pass) durch computergestützte Bilderkennung, welche an Schweizer Ausweisdokumenten und Geschäftskorrespondenz trainiert wurde
  • Automatische Indexierung des Dokumenteninhalts (sog. Verschlagwortung) zur Beschleunigung der späteren Volltextsuche (etwa nach Kunde, Patient, Schüler, Student, Mandant, Versicherter, Steuersubjekt, Liegenschaft, Objekt, Einheit, Abteilung, Kostenstelle, Dossier, Projektnummer, Servicefall)
  • Automatische Indexierung von betriebswirtschaftlich relevanten Dokumenteninhalten wie Kunden- und Lieferantennamen, Markenartikeln, Zeitangaben, Länder- und Städtenamen, Anlässen, Währungen, Zinssätzen oder vom Kunden festgelegte Identifikatoren (unterstützte Sprachen: Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Spanisch)
  • Automatische Erkennung der dominanten Dokumentensprache zur Weiterleitung an Mitarbeiter mit den erforderlichen Sprachkenntnissen. Mit wachsendem Archivbestand kann das gesamte PDF-Repertoire nach Sprachen (100+) gefiltert werden, um künftigen Anwendungsfälle zu begegnen.
  • Automatische Erkennung von Personendaten nach DSG: Namen, Adressen, Telefone, E-Mails, Ausweise, Alter, Versichertennummer, TIN, Autokennzeichen, Nummer Kreditkarte, IBAN, URL, IP-Adresse, Passwort
  • Anonymisierung von Personendaten in einem einzigen Tastendruck zur Maskierung sensibler und klassifizierter Informationen bei der Umsetzung von Auflagen im Bildungswesen (Schülerdaten), im Finanzsektor (Kontonummern), in der öffentlichen Verwaltung (AHV-Nummern), im Gesundheitswesen (biometrische Daten), in der Strafverfolgung (Zeugenschutz), oder bei Gerichtsverfahren
  • Automatische Konvertierung in das PDF/A-Format (A für archivtauglich) zur Langzeitarchivierung
  • Prüfpfad: virtueller oder physischer Druck einer Dokumentennummer, welche Ort und Zeit der Digitalisierung sowie die Personalie des Geräteführers protokolliert (im Scanning-Kontext)


Was sind die Vorteile der optischen Zeichenerkennung?


Optical Character Recognition (OCR) ist im Wesentlichen eine KI-Technologie, die ein Textbild (sei es ein handgeschriebener oder gedruckter Text, ein gescanntes PDF-Dokument, eine jpg- oder png-Bilddatei) in ein maschinenlesbares Format umwandelt, um es für die Textverarbeitung durchsuchbar macht (hier).


OCR trifft einen zentralen Nerv in der digitalen Transformation von Schweizer Unternehmen, denn in den meisten Geschäftsprozessen wie Buchhaltung, Kundenakquise und Verwaltungsabläufen fallen immer noch grosse Mengen an Papier an, das zu Beweiszwecken archiviert und klassifiziert werden muss.


Situationen, in denen beweiskräftige Unterlagen relativ kurzfristig vorgelegt werden müssen, sind beispielsweise:


  • Steuerprüfungen: Mehrwertsteuerrevision, Lohnrevision, Quellensteuerrevision
  • Behördliche Ermittlungen: Aufsichtsrechtliche Untersuchungen, Enforcements, Inspektionen vor Ort
  • Zivilrechtliche Verfahren
  • Strafverfahren
  • Anfragen von betroffenen Personen gemäss DSG
  • Einarbeitung von Kollegen bei Dossierübergabe


Eine präzise OCR-Technologie ist von entscheidender Bedeutung für gute Datenqualität und Suchbarkeit. 360core verwendet modernste OCR-Lösungen in allen Anwendungsfällen (Bilddaten, Handschrift, gescannte Geschäftsunterlagen).


Für Geschäftsdokumente und Buchhaltungsunterlagen verwendet 360core die genaueste OCR-Technologie, die derzeit auf dem Markt verfügbar ist, wie unabhängige Tests der OCR-Genauigkeit bewiesen haben.


Was ist 360 Autoindexing?


Ein französisches Sprichwort sagt: "Im Bibliothekswesen ist ein schlecht klassifiziertes Buch ein verlorenes Buch". Dasselbe gilt für digitale Datenspeicher. Schlecht indizierte PDFs sind so gut wie verloren und machen den ganzen Aufwand des Scannens und Speicherns praktisch nutzlos.


Dank unserer Lösung zur automatischen Indizierung ("360 Autoindexing") werden Eingabefehler bei der Klassifizierung von Dokumenten minimiert. Besonders effektiv ist der Algorithmus für Standardformulare, die ein einheitliches Layout aufweisen, wie etwa E-Mails, Rechnungen oder Ausweisdokumente, bei denen sich Informationswerte durchweg an gleicher Position befinden.


Die Indizierung von unternehmensrelevanten Identifikatoren ermöglicht im Folgenden das nahezu sofortige Auffinden von den entsprechenden Unterlagen über die Volltextsuche. Bei der Einrichtung von Instanzen für Geschäftskunden ermitteln wir folglich im Voraus, welche Identifikatoren ein Unternehmen verarbeitet - und welche Daten sinnvollerweise indiziert werden müssen. Ein gut indiziertes System ermöglicht ein schnelles und zuverlässiges Auffinden von Dokumenten, was bei zeitkritischen Compliance-Audits oder Gerichtsverfahren entscheidend sein kann.


Generell wird die Indexierungsqualität in stark regulierten Branchen wie Finanzdienstleistungen und Gesundheitswesen zum kritischen Messwert im Bereich Risikomanagement und Information-Compliance.


1. Automatische Erkennung von Rechnungsdaten


Der heutige Stand der Technik macht es möglich, Datensätze aus Belegen und Rechnungen via OCR direkt in die Buchhaltungssoftware oder das Zahlungsportal zu importieren, um dort von menschlicher Hand verifiziert zu werden. Dabei abstrahieren unsere Systeme von der jeweiligen Form, Sprache oder den länderspezifischen Merkmalen einer Rechnung.


Somit müssen Rechnungsbeträge, Referenznummern, Währungen sowie Adressfelder von Zahlungsempfängern nicht mehr mühsam von Hand eingetippt werden. Mit bis zu 10 Eingabefeldern, die zur Erfassung eines Zahlungsauftrags nötig sind, heisst das auch weniger fehlgeschlagene Überweisungen durch menschliches Versehen (sog. "Fat-Finger-Fehler").


Unsere Pipeline zur Erfassung von Rechnungsdaten extrahiert bei hohen Zuverlässigkeitswerten folgende Attribute aus gescannten oder hochgeladenen Rechnungen, welche dem Kunden als Metadaten zur Verfügung gestellt werden:


  • Angaben zu Lieferanten (Kreditoren) und Kunden (Debitoren): Name, Strasse, Postleitzahl, Ort, Kanton, Land, Telefon, Website, Mehrwertsteuer-Nummer, Kontaktperson
  • Rechnungsangaben: Rechnungsdatum, Rechnungsnummer, Bestelldatum, Bestellnummer, Fälligkeitsdatum sowie Lieferdatum
  • Informationen zur gelieferten Ware oder erbrachten Dienstleistung: Artikelnummer, Produktbeschrieb, Stückzahl, Stückpreis Gesamtpreis, Beschrieb Dienstleistung
  • Zahlungsaufschlüsselung: Zahlungsfrist, geschuldeter Betrag, bereits geleisteter Betrag, Zwischensumme, Endbetrag, Mehrwertsteuerabzug, Servicegebühr, Gratifikation, vorheriger Saldo, Rabatt, Versandkosten


2. Automatische Erkennung von Ausweisdaten und Passdaten


Die automatisierte Erfassung von Personendaten aus Ausweisen zur Identitätsprüfung (Passausweise, IDs, Führerscheine) ist von zentraler Bedeutung beim Kunden-Onboarding oder der Altersverifizierung, so etwa zur Feststellung des wirtschaftlich Berechtigten im Zuge der digitalen Bankkontoeröffnung in der Schweiz oder im Rahmen eines Studentenabonnements einer Zeitung oder Zeitschrift.


Der Schwerpunkt liegt hier auf der Qualität der bei der Ingestion ermittelten Stammdaten im Hinblick auf ihre spätere Echtzeitverteilung an periphere Systeme und Workflows, von der Betrugsprävention bis zum Sanktionsscreening und der Risikobewertung im Allgemeinen.


Beim Scannen oder Hochladen auf die Archivebene (hier) extrahiert unsere Architektur die folgenden Messwerte aus Pässen und Ausweisdokumenten und gibt sie in Form von Metadaten an den Kunden weiter:


  • Vorname
  • Mittelname
  • Nachname
  • Geburtsdatum
  • Ausstellungsland
  • Ausstellungsdatum
  • Ablaufdatum
  • Passnummer

Anwendungsfälle

Automatische Erkennung von Ausweisdaten (Onboarding, Altersüberprüfung)

Extraktion des Inhalts aus Formularen, Bewerbungen, Lebensläufen

Anwendungsbereich: Kundeneröffnung und -registrierung

Maschinelle Verarbeitung von Verträgen und Rechnungen sowie Jahresabschlüssen

Anwendungsbereich: Due-Diligence- und Buchhaltungsworkflows

Massenindexierung von Archiven, Geschäftspost, Mails sowie deren Anhänge

Anwendungsbereich: Archivierungs- und E-Discovery-Szenarien

Diese Lösung in unserem Betrieb einführen

Share by: