Automatisierte Texterkennung und Dublettenprüfung beim BLF-Sterbebilderprojekt
Unser Sterbebild-Projekt hat sich in den letzten Jahren zu einem absoluten Erfolgs-Projekt entwickelt, das von vielen Familien-Forschern gerne genutzt wird. Dadurch ergab sich allerdings das Problem, dass bei einem Bestand von über 1,2 Millionen Sterbebildern bei jeder angelieferten Sammlung der Anteil der doppelten, bereits vorhandenen Sterbebilder immer größer und die Erfassung damit auch immer aufwändiger wurde. Ständige Frage: Ist es nicht möglich, Sterbebilder maschinell zu lesen?
Dabei geht es nicht nur darum, Sterbebilder in elektronische Bildformate umzuwandeln – das macht ja schon der Scanner – sondern darum, den Inhalt der Sterbebilder zu erfassen und in weiterverarbeitbare Daten zu überführen. Dies erfordert eine Technologie, die den Text aus den Bildern extrahieren kann: die Texterkennung (auch als "Optical Character Recognition" (OCR) bezeichnet).
Dies war die Herausforderung, der sich Josef Probst schon während seines Informatik-Studiums stellte und in der Programmiersprache Python ein Programm entwickelte, das die eingescannten Sterbebilder liest und die Informationen in weiterverarbeitbarem Format für die Sterbebilder-Datenbank aufbereitet. Die dabei zum Einsatz kommende Software "Tesseract" verwendet zur Texterkennung ein künstliches neuronales Netz und somit Technologien, die der sog. "künstlichen Intelligenz" (KI) zuzuordnen sind. – Kurz gesagt: Alle reden von KI, wir beim BLF haben sie schon im Einsatz!
Große Schwierigkeiten machen bei der Texterkennung insbesondere die verschiedenen Layouts sowie alte bzw. verschnörkelte oder ungewöhnliche Schriftarten. Obwohl es bis heute noch nicht gelungen ist, alle erforderlichen Informationen aus den verschiedenen Sterbebildern zu extrahieren, hat Josef Probst beim Auslesen von Geburts- und Sterbedatum eine sehr hohe Trefferquote erreicht. Da davon ausgegangen werden kann, dass es in Bayern keine zwei Personen gibt, die am gleichen Tag geboren und auch am gleichen Tag gestorben sind, reichen Geburts- und Sterbedatum aus, um zu prüfen, ob diese Person bereits erfasst ist – und genau das macht das Programm von Josef Probst. Name und Vorname sind hierfür nicht erforderlich! Einziger Wermutstropfen: bei alten Exemplaren befindet sich meist nur das Sterbedatum auf dem Sterbebild; in diesen Fällen wird versucht, die Prüfung mit Vorname, Nachname und Sterbedatum durchzuführen.
Doppelte Sterbebilder – was bei einem Bestand von über 1,2 Millionen häufig vorkommt – brauchen somit nicht mehr erst aufwendig erfasst und anschließend wieder gelöscht werden. Außerdem braucht kein Lieferant von Sterbebildern vorher manuell kontrollieren, ob ein Sterbebild bereits in unserer Datenbank vorhanden ist. Das Programm steuert doppelte Sterbebilder schon vor der Erfassung aus. Dies ist eine erhebliche Erleichterung für alle Beteiligten!
Zudem hat sich die Erfassung dadurch wesentlich vereinfacht, dass Felder wie Geburts- und Sterbedatum sowie und Name und Vorname dank der Zeichenerkennung oft schon vorbelegt sind. Diese vorausgefüllten Felder können jedoch noch Fehler enthalten. Aber selbstverständlich reicht das Josef Probst noch nicht: Er will in Zukunft die Trefferquote auch bei Vorname, Name, Geburtsname, Geburtsort, Sterbeort, Beruf und Druckerei erhöhen und diese Angaben ebenfalls maschinell erfassen.
Das Team des BLF-Sterbebilder-Projektes bedankt sich bei Josef Probst für die erhebliche Arbeitserleichterung und wünscht ihm auch für die folgenden Schritte viel Erfolg!
- 2005 Aufrufe