Dublettenerkennung mit KI

Lagergut Digital entstand ursprünglich als Dienstleister um Scan-on-demand für Kunden der Aktenlagerung anzubieten. Mittlerweile hat sich das Unternehmen zu einem kompletten Scandienstleister entwickelt. Neben dem Scan-on-demand bietet das Unternehmen so gut wie alle Digitalisierungs- und Scandienstleistungen an.

Als Full-Service Dienstleister bildet das Unternehmen die komplette Prozesskette von der Logistik über die Vorbereitung, Digitalisierung, Datenerfassung, Akteneinlagerung, elektronischen Archivierung bis hin zur zertifizierten Vernichtung von Akten und Dokumente ab.

Dubletten bei der Datenerfassung werden mithilfe von Machine Learning Ansätzen erkannt.

Mithilfe der Dublettenerkennung werden Datensätze miteinander verglichen, um herauszufinden, ob es sich bei den Datensätzen um Duplikate handelt. Zu Duplikaten kommt es, wenn Datensätze in einem System wie beispielsweise einem Repository oder einem Katalog mehrfach erfasst werden oder wenn Daten aus unterschiedlichen Systemen zusammengeführt werden.

Jedes KI-Projekt braucht eine große Menge Daten, damit die Algorithmen lernen können.

Um das Ergebnis zu verbessern, wird im ersten Schritt festgelegt, welche Eigenschaften der Datensätze betrachtet werden sollen. Dazu wird eine entsprechende Auswahl der Eigenschaften vorgenommen.

Im Anschluss werden mithilfe von Locality-sensitive Hashing (LSH) mögliche Paare eingeteilt, gesucht und analysiert. Bei einem Paar stimmt eine bestimmte Anzahl an Eigenschaften in beiden Datensätzen überein. Dadurch versuchen wir, aus den Daten die Paare zu finden, die am wahrscheinlichsten Dubletten sind.

Als Nächstes wird für jedes Paar ein Ähnlichkeitsvektor gebildet. Dieser Ähnlichkeitsvektor zeigt, wie ähnlich sich die Datensätze wirklich sind. Um herauszufinden, bei welchen Paaren es sich wirklich um Dubletten handelt, wird ein Klassifikator mit dem Ähnlichkeitsvektor trainiert und im Anschluss verfeinert. Durch die Verfeinerung werden die Ergebnisse optimiert und besser verstanden.

Nach dem Trainieren der KI, können wir dieses Verfahren auf neue, unbekannte Daten anwenden.

Bei diesem Projekt arbeiten wir mit der Programmiersprache Python.

Bei der Verwaltung von Datenbeständen wird die Arbeit mit KI-gestützten Verfahren immer wichtiger. Schnell wachsende Datenbestände machen eine manuelle Bearbeitung von Daten heute schon fast unmöglich. Das Projekt trägt so zur Arbeitnehmerentlastung und zur Kostenreduktion des Unternehmens bei.

Dienstleistungen und Lösungen

Jetzt beraten lassen

Alle Referenzen ansehen

Dublettenerkennung von Dokumenten mit Hilfe der KI

Dienstleistungen und Lösungen

Ihr Projekt – lassen Sie uns darüber sprechen!