Android-Logo

Android-App zur automatisierten Kombination von Zeilensegmentierungen und OCR-Texterkennungen bei Kupferstichen zu herkulanischen Papyri

Projekt von Markus Bald im Sommersemester 2017

Überblick

  • Die Anwendung segmentiert die Textzeilen der Kupferstich-Abbildungen aus der Collectio Altera und kombiniert diese mit den jeweiligen OCR-Texten aus den TEI-Kodierungen, welche auf Github bereitgestellt wurden.
  • Die Bild-Text-Kombination ermöglicht direkte Vergleiche zwischen den Bildzeilen und der zugehörigen Texterkennung, wodurch Fehler in den Kodierungen sehr einfach erkannt und korrigiert werden können.
  • Entsprechend der Kodierung werden auch die einzelnen Fragmente und Spalten separiert. Die Segmentierung der Zeilen erhöht die Lesbarkeit auf mobilen Geräten, ohne die Abbildungen zoomen und verschieben zu müssen.
  • Der Verlauf der Änderungen wird mit Zeitstempeln in einer XML-Datei gespeichert, die in künftigen Versionen in jeder Zeile über eine Dropdown-Auswahl angezeigt und ausgewählt werden können sollen:

    Revisionsverlauf

Preprocessing für optimierte Zeilenerkennung

  • Um eine präzise Zeilenerkennung zu ermöglichen, ist ein manuelles Zuschneiden der Bilder notwendig, da die Schriftzeichen nicht in jedem Fall automatisch von den Schraffuren unterschieden werden können, da ihre Pixel teilweise mit diesen verbunden sind.
  • Anschließend werden die Grafiken mit OpenCV-Algorithmen für die OCR-Segmentierung optimiert:

Beispiel eines Ergebnisses der automatisierten Präprozessierung mit OpenCV, angewandt auf die bereits zugeschnittene Abbildung VH2_01_127. Die rechte Grafik wurde binarisiert, um die höchstmögliche Kontrastierung zu erzielen, sowie erodiert und dilatiert, um die Schriftzeichen zu betonen. Zudem wurde ein Denoising-Algorithmus angewendet, um die Platzhalter-Punkte weitestgehend zu entfernen (da sich diese wie die Schraffuren als Störfaktor auf die Zeilensegmentierung auswirken).

 

Details

Version: 1.0
Aktualisiert am: 01.06.2017
Downloadgröße: 34,9 MB
Android-Version: ≥ 4.4

Projekt-Dokumentation