Nachdem im Betreff benanntes Projekt bei mir langsam echte Strukturen gewinnt, möchte ich versuchen, einen Sammel-Thread zu diesem Thema eröffnen, weil ich festgestellt habe, dass trotz allen Fortschritts dieser Themenkreis scheinbar die Existenz eines Stiefkinds führt. Mein letzter Besuch bei der Hausbank am Dienstag hat mir gezeigt, dass es auch im gewerblichen Bereich an softwareübergreifenden Lösungen mangelt. Beschwerlich musste sich die Sachbearbeiterin mit "Copy und Paste" mühen, weil Datensätze nicht programmübergreifend zur Verfügung standen. Ältere Geschäftsdaten waren in das System gar nicht eingepflegt, so dass ich fast geneigt war, einen Kilometerbonus zu gewähren.
Womit wir gleich bei der Problematik wären, der momentan mein Hauptaugenmerk gilt: Der Digitalisierung des Altbestands.
Die möchte ich gern als erstes erörtern - und zwar aus Sicht eines gehobenen Privat-/kleinen Business-Anwenders, zu denen sicher ein nennenswerter Teil der TT-Mitglieder gehören dürfte. Also ein Personenkreis, der keinen speziellen Systemadministrator zu seinem Mitarbeiterkereis zählen darf.
Zunächst meine Erfahrungen zum Einscannen des Datenbestands. Über Wochen hinweg habe ich mich mit den theoretischen Grundlagen auseinandergesetzt, so dass ich zwischenzeitlich behaupten darf, über einen nennenswerten Kenntisstand zu verfügen. Praktische Erfahrungen haben diesen bestätigt und ergänzt.
Schon zu Anfang ging ich davon aus, dass nicht nur die abbildgetreue Reproduktion der Schriftstücke das Ziel sein kann, sondern dass die maschinelle Verarbeitung der in den gescanten "Bildern" (zuvor Schriftstücke) enthaltenen Informationen essentieller Bestandteil des Ergebnisses sein muss.
Zunächst zu den Grundlagen:
Anfangs stellt sich die Frage, mit welcher Auflösung man arbeiten soll, um (ggf. in einem späteren Schritt) eine ordnungsgemäße Schrifterkennung zu gewährleisten. Bewährt haben ich hier - wie in der Literatur empfohlen - 300 dpi. ABER: Scant man in SW, um den Speicherplatz zu verringern, reicht das aufgrund der praktischen Erfahrungen nicht! Insbesondere feine Linien drohen in großen Teilen zu verschwinden, weil das Ergebnis der Pixelabfrage "weiß" lautet, obwohl eine feine Linie existiert, deren Schwarzanteil am Pixel aber weniger als 50% beträgt.
Meine bewährte Vorgehensweise in der Praxis:
- 300 dpi bei Scans in Farbe und
- 600 dpi bei Scans in SW.
Mit diesen Einstellungen war es stets möglich, mit OCR-Software ein zufriedenstellendes Ergebnis in der texterkennung zu erzielen.
Nun zur Software:
Mit dem Scanner- und Kameraassistenten von Windows XP (beispielhaft) ist es möglich, zufriedenstellende Ergebnisse zu erzielen. Als Format für die Archivierung empfiehlt sich tiff, weil es un ter den Bildformaten das zur Dokumentenarchivierung gebräuchliste ist. Das für Bilder übliche jpg-Format ist in der Dokumentenarchivierung de facto nicht existent. Ein Grund liegt darin, dass das tiff-Format von Hause aus mehrseitige Dokumente zulässt (was bei jpg nicht der Fall ist). Auch lässt sich das tiff-Format mit freeware-Tools problemlos in Bild-PDF wandeln.
Womit wir bei nächsten Themenkomplex wären:
Das PDF-Format ist eigentlich keins. Es ist eher ein Container-Format (entsprechend avi), in das sich eine Vielzahl eigener Formate einbetten lässt. Zunächst war ich verwundert, dass einige PDF-Converter aus einem Schriftstück eine Datei mit der Größe von 40 kB erzeugen, andere jedoch 1,5 MB benötigen. Auch ein Ergebnis der "Format im Container"-Problematik. Als Textdatei mit Standardschriften des Systems sind es 40 kB, als Bild dann eben 1,5 MB. Eine einfach anmutende Erklärung, die in sachen Archivierung aber entscheidend sein kann. Existiert die "Standardschrift" des 40 kB-Dokuments in 20 Jahren nicht mehr auf dann aktuellen Systemen, lässt sich das Dokument nicht mehr darstellen, weil dieses Archivformat auf die Systemschriftarten zurückgreift - mit fatalen Folgen, wenn diese Schriftart auf dem darstellenden Computersystem nicht installiert ist.
So, nun will ich es bei meinen Einführungsanmerkungen erst einmal belassen, um festzustellen, ob hier imTT ein Interesse an diesem (wider Erwarten sehr komplexen) Thema besteht. Bei Resonanz bin ich gern bereit, meine Ausführungen fortzusetzen, um sie im Kreis Interessierter zu diskutieren. Denn auch ich sehe mich noch am Anfang eines Lernprozesses, der dazu dienen soll, in 20 Jahren nicht vor einem nutzlosen Desaster zu stehen.
frankie