Das "Papierarme Büro"

  • Nachdem im Betreff benanntes Projekt bei mir langsam echte Strukturen gewinnt, möchte ich versuchen, einen Sammel-Thread zu diesem Thema eröffnen, weil ich festgestellt habe, dass trotz allen Fortschritts dieser Themenkreis scheinbar die Existenz eines Stiefkinds führt. Mein letzter Besuch bei der Hausbank am Dienstag hat mir gezeigt, dass es auch im gewerblichen Bereich an softwareübergreifenden Lösungen mangelt. Beschwerlich musste sich die Sachbearbeiterin mit "Copy und Paste" mühen, weil Datensätze nicht programmübergreifend zur Verfügung standen. Ältere Geschäftsdaten waren in das System gar nicht eingepflegt, so dass ich fast geneigt war, einen Kilometerbonus zu gewähren.


    Womit wir gleich bei der Problematik wären, der momentan mein Hauptaugenmerk gilt: Der Digitalisierung des Altbestands.


    Die möchte ich gern als erstes erörtern - und zwar aus Sicht eines gehobenen Privat-/kleinen Business-Anwenders, zu denen sicher ein nennenswerter Teil der TT-Mitglieder gehören dürfte. Also ein Personenkreis, der keinen speziellen Systemadministrator zu seinem Mitarbeiterkereis zählen darf.


    Zunächst meine Erfahrungen zum Einscannen des Datenbestands. Über Wochen hinweg habe ich mich mit den theoretischen Grundlagen auseinandergesetzt, so dass ich zwischenzeitlich behaupten darf, über einen nennenswerten Kenntisstand zu verfügen. Praktische Erfahrungen haben diesen bestätigt und ergänzt.


    Schon zu Anfang ging ich davon aus, dass nicht nur die abbildgetreue Reproduktion der Schriftstücke das Ziel sein kann, sondern dass die maschinelle Verarbeitung der in den gescanten "Bildern" (zuvor Schriftstücke) enthaltenen Informationen essentieller Bestandteil des Ergebnisses sein muss.


    Zunächst zu den Grundlagen:


    Anfangs stellt sich die Frage, mit welcher Auflösung man arbeiten soll, um (ggf. in einem späteren Schritt) eine ordnungsgemäße Schrifterkennung zu gewährleisten. Bewährt haben ich hier - wie in der Literatur empfohlen - 300 dpi. ABER: Scant man in SW, um den Speicherplatz zu verringern, reicht das aufgrund der praktischen Erfahrungen nicht! Insbesondere feine Linien drohen in großen Teilen zu verschwinden, weil das Ergebnis der Pixelabfrage "weiß" lautet, obwohl eine feine Linie existiert, deren Schwarzanteil am Pixel aber weniger als 50% beträgt.


    Meine bewährte Vorgehensweise in der Praxis:


    - 300 dpi bei Scans in Farbe und
    - 600 dpi bei Scans in SW.


    Mit diesen Einstellungen war es stets möglich, mit OCR-Software ein zufriedenstellendes Ergebnis in der texterkennung zu erzielen.


    Nun zur Software:


    Mit dem Scanner- und Kameraassistenten von Windows XP (beispielhaft) ist es möglich, zufriedenstellende Ergebnisse zu erzielen. Als Format für die Archivierung empfiehlt sich tiff, weil es un ter den Bildformaten das zur Dokumentenarchivierung gebräuchliste ist. Das für Bilder übliche jpg-Format ist in der Dokumentenarchivierung de facto nicht existent. Ein Grund liegt darin, dass das tiff-Format von Hause aus mehrseitige Dokumente zulässt (was bei jpg nicht der Fall ist). Auch lässt sich das tiff-Format mit freeware-Tools problemlos in Bild-PDF wandeln.


    Womit wir bei nächsten Themenkomplex wären:
    Das PDF-Format ist eigentlich keins. Es ist eher ein Container-Format (entsprechend avi), in das sich eine Vielzahl eigener Formate einbetten lässt. Zunächst war ich verwundert, dass einige PDF-Converter aus einem Schriftstück eine Datei mit der Größe von 40 kB erzeugen, andere jedoch 1,5 MB benötigen. Auch ein Ergebnis der "Format im Container"-Problematik. Als Textdatei mit Standardschriften des Systems sind es 40 kB, als Bild dann eben 1,5 MB. Eine einfach anmutende Erklärung, die in sachen Archivierung aber entscheidend sein kann. Existiert die "Standardschrift" des 40 kB-Dokuments in 20 Jahren nicht mehr auf dann aktuellen Systemen, lässt sich das Dokument nicht mehr darstellen, weil dieses Archivformat auf die Systemschriftarten zurückgreift - mit fatalen Folgen, wenn diese Schriftart auf dem darstellenden Computersystem nicht installiert ist.


    So, nun will ich es bei meinen Einführungsanmerkungen erst einmal belassen, um festzustellen, ob hier imTT ein Interesse an diesem (wider Erwarten sehr komplexen) Thema besteht. Bei Resonanz bin ich gern bereit, meine Ausführungen fortzusetzen, um sie im Kreis Interessierter zu diskutieren. Denn auch ich sehe mich noch am Anfang eines Lernprozesses, der dazu dienen soll, in 20 Jahren nicht vor einem nutzlosen Desaster zu stehen.


    frankie

  • Es sieht so aus, als sei ich hier doch nicht der einzige, den dieses Problem beschäftigt. Das freut mich! :top:


    Auch die Aussage im verlinkten Artikel "Die Digitalisierung von analogen Datenbeständen ist definitiv mit einem erheblichen Arbeitsaufwand verbunden. Der Auswahlprozess der Werkzeuge ist aufwendig ..." kann ich vollinhaltlich bestätigen.


    Weil zu meinem Portefeuille etliche Dokumente gehören, die ich aufgrund ihres Urkundencharakters nicht in Einzelseiten zerlegen kann, benötige ich leider einen Scanner, der auch Einzelblatteizug anbietet. Ansonsten stimme ich mit dem Verfasser des verlinkten Artikels überein, dass der Fujitsu Scan-Snap ganz sicher eine hervorragende Wahl ist. Auch in Bezug auf die Scanner-Treiber. Sind diese eine Tilmenge des Produkts Scan-I.R.I.S., oder irre ich hier?


    Die von Scanner-Anbietern mitgelieferte Treiber-SW ist letztendlich auf einige wenige SW-Schmieden zurückzuführen. Gehe ich Recht in der Annahme, dass Fujitsu als Treiber eine abgespeckte Version von Scan-I.R.I.S. nutzt?


    Frankie



    Edit:
    Nur vorsorlich möchte ich daran erinnern, dass zu meinem Portefeuille auch einige Akten mit vierstelligem Seitenumfang gehören. Spätestens bei derartigen Projekten trennt sich die Spreu vom Weizen.



    Edit 2:
    Ein Preis von 180 USD für eine Lösung, die ein vorzügliches Ergebins bietet, erscheint nur vordergründig als hoch. Denkt man über seine sonstigen Ausgaben der Lebenführung nach, wird man problemlos erkennen, dass ein solcher Preis für eine wirklich funktionsfähige Lösung definitiv nicht hoch ist - auch, wenn man diesem Gedanken bei der ersten Reflektion unterliegen könnte. Allein die Summe dessen, die ich zwischenzeitlich in irgendwelchen "Quark" investiert hatte, übersteigt diesen Betrag bei Weitem!

  • Ich habe letztens mir den Fujitsu SnapScan angeschafft. Hatte in 4-5 Tagen so um die 6000 Seiten durchgescannt. Das ist ein Hammerteil! Kostet aber auch viel, so um die 400€, aber es lohnt sich Altbestand zu digitalisieren.


    Ich habe allerdings ohne Texterkennung gemacht, da es zeitraubend ist. Ich habe halt jedes PDF Dokument korrekt umgenannt. So weiß ich auch direkt, worum es im Inhalt geht.

    Dodge This!
    Rules of Acquisition: Free advice is seldom free. [Nov2011-Marke7000 // Nov2012- Marke 8000 // Inventar-Status seit Januar 2012-Juchu]

  • Ich scanne eingehende Post mit 300dpi/SW mit einem einfachen Canon MP640 Drucker/Scanner. Wird abgespeichert als (mehrseitiges) PDF mit "normaler" Komprimierung.


    Ergibt relativ kleine PDF-Dateien, die Windows 7 aber relativ zuverlässig bei mir durchsuchen kann. Für mich reicht das.

    Mit Grüßen ...

  • Das Thema, dass rajenske anspricht, war der für mich ser zeitaufwändigste Einzelschritt in Richtung Papierarmut:


    Die Ermittlung einer "Grundkonfiguration", die dem größtmöglichen Teil der zu bearbeitenden Dokumente gerecht wird. Zunächst hatte ich mir einen Doku-Satz mit einem weiten Spektrum von Schriftsätzen, handschriftlichen Aufzeichnungen (zum Teil mit Zeichnungen), Urkunden (mit verschiedenfarbigen Dienststempeln, die erkennbar sein müssen), Zeitungsausschnitten etc. zusammengestellt und diesen dann mit diversesten Einstellungen verarbeitet.


    Für mich war wichtig, dass der größtmögliche Teil der in den gescanten Objekten enthaltenen Information erhalten bleibt - auch etwa in Gutachten enthaltene Abblidungen (die ohnehin oft schon Fotokopien waren) mussten erkennbar bleiben.


    Das hört sich einfacher an, als es das war. Aus Platzgründen (inzwischen habe ich eine fünfstellige Seitenzahl verarbeitet) hatte ich mich wie rajenske für SW-Scans entschieden - und hier eine Einstllung zu finden, die sowohl hellen wie dunklen als auch kontrastreichen wie -armen zum Teil farbigen Objekten gerecht wird, ist eine ziemliche "Friemelei".


    Zunächst hatte ich statt der 24 bit Farb- eine 8 Bit-Graudarstellung gewählt mit zufriedenstellenden Ergebnissen, wie man sie von gewöhnlichen Fotokopien her kennt. Bis mir dann eins aufgefallen ist, das ich bis heute nicht so recht verstehe:


    Der Speicherbedarf der 8-Bit Grauscans war häufig fast ebenso groß, wie der von 24-Bit Farbscans. Zwar variierte die Differenz je nach verwendeter Treibersoftware, ein merklich geringerer Speicherplatz entstand allerdings lediglich bei SW-Dateien. Die waren bei mir um das Zehn- bis Zwanzigfache kleiner, als ihre farbigen und graustufigen Brüder.


    Nach Dutzenden von Testläufen hatte ich dann eine Einstellung, die als Standard bei den meisten Vorlagen vernünftige Ergebnisse bietet. Dokumente, bei denen man das Ergebnis lieber noch einmal prüft, erkennt man nach gewisser Zeit problemlos.


    Wenn ich mich statt rajenske für 600 dpi SW entschieden habe, lag das insbesondere an Folgendem:


    Enthalten handschriftliche Manuskripte Zeichnungen oder sonstige Bestandteile, bei denen das Gehirn nicht (wie etwa bei Buchstaben) fehlende Linien fast unmerklich von selbst ergänzt, reichen bei SW-Scans 300 dpi nicht, um feine Linien (etwa Striche mit dünnem Kugelschreiber) zuverlässig zu erkennen. Während eine dünne schwarze Linie bei einem 300 dpi Farbscan noch zu einem Grauwert im Pixel führt, tendiert ein SW-Scan dazu, den Pixel weiß abzubilden (es geht ja nur Hopp oder Topp). Als "Universaleinstellung" hatte ich daher die höhere Auflösung gewählt, um insoweit auf der sicheren Seite zu sein.


    Die Helligkeit (Kontrastzwischenwerte gibt es bei reinem SW ja nicht) habe ich deutlich reduziert auf den Wert 20 einer bis 100 reichenden Skala (vorgegebener Wert war 50). Hierdurch wird die Wiedergabe handschriftlicher Aufzeichnungen mit farbiger (oft blauer) Tinte erheblich verbessert, ohne dass Bilder in Beschreibungen unkenntlich werden. Sie geraten zwar recht dunkel, die Erkennbarkeit leidet durch die Reduzierung der Helligkeit allenfalls marginal. Hier sollte man die Einstellung dem persönlichen Bedarf anpassen. Der Anteil betroffener Abbildungen ist in meinem Schriftgut recht gering.


    Wenn die von mir gewählte SW-Konfigunration kein ausreichendes Ergebnis liefert, habe ich alternativ noch ein Farbprofil eigerichtet. Einige wenige Objekte können in SW nicht in vernüftiger Qualität abgebildet werden. Als hoch problematisch haben sich Aufzeichnungen mit Bleistift erwiesen, die sich durch die Reflektion des abtastenden Lichtstrahls an den Bleistiftstrichen bei einer SW-Darstellung in manchen Teilen kaum erkennbar sind.


    Auch, wenn ich mich auf einem guten Weg sehe ... den "Stein des Weisen" habe ich ganz sicher damit noch nicht gefunden. Weitere Gedanken sind daher ausdrücklich erwünscht.


    Frankie

  • also ich mach das seit kurzem (privat) mit dem brother mfc 295cn und dem tool pdfscanner (für mac 11,99€ ausm app store)


    das funktioniert für mich ganz ok, speicherort ist die dropbox, aktuell liegen da meine rechnungen von 2011/12, weiteres werd ich nach und nach einscannen da der einzug des scanners nicht perfekt ist, aber für meine belange ganz ok.


    das programm hat gleich ocr mit drin und scann die sachen in ein pdf format, man kann die qualität einstellen, mir genügt hier mit 300 dpi farbe gesannt die mittlere einstellung beim speichern...


    speichere das ganze dennoch in ner kleinen ordnerstruktur nach rechnungen -> 2010 / 2011 / 2012 aber das ist nur das man auch mal in der dropbox von unterwegs schnell mal reinnavigieren kann wenn mans ungefähr weiss.


    mein problem liegt eher immer im "nicht-vergessen-zu-scannen"- bevor es in irgend einem ordner verschwindet ;) alles in allem find ich das aber trotz der arbeit sinnvoll da man so schnell an seine dokumente ran kommt

  • Interessanter Thread. Zum Thema "welche Farbtiefe": Ich verstehe ja den Wunsch nach moeglichst kleinen Dateien, aber ich wuerde hier im Zweifelsfall einfach Plattenplatz gegen Ungewissheit und Zeitaufwand tauschen. Festplatten kosten heute nichts mehr, selbst bei 20 MB/Seite passen auf eine gaengige 60-EUR-Platte mit 2 TB Kapazitaet ueber 100.000 Seiten.

  • Die Größe der Dateien ist nicht allein ein Platzproblem.


    Meine Akten, die ich bilde, dienen nicht allein der Archivierung - ich arbeite auch mit ihnen. Sie leben - was heißt, dass ich Seiten einfüge bzw. ersetze und am Ende selbstverständlich weitere Seiten ergänze. Des Weiteren kommen (allerdings in eher seltenen Fällen) Anmerkungen zum Einsatz.


    Derzeit arbeite ich häufig mit einer Akte, die einen Umfang von knapp 2.000 Seiten hat. Bei meinem gegenwärtigen Mix aus vielen SW und wenigen Color-/Graustufenseiten hat die einen Umfang von etwa 170.000 MB. Solche konkret benötigten Akten führe ich auf einem Netbook mit, so dass ich jederzeit Ein icht nehmen kann.


    Hier lauert ein weiteres Problem:
    Das Handling der Dateien beim Blättern und/oder deren Bearbeitung. Problematisch wird das zwar erst ab einem Seitenumfang im (kleineren) dreistelligen Bereich, dann nervt es aber heftig. "Mal eben blättern" wird auf einem Netbook schon bei einer 300 Seiten umfassenden Sammlung von Farbscans zur echten Geduldsprobe. Denn bei selbst gescanten PDF-Dateien reden wir von reinen Bildateien ergänzt um das Ergebnis einer OCR, während es sich bei Schriftstücken, die man etwa mit MS-Office erstellt und als PDF (auch farbig) sichert, um Textdateien handelt, deren Darstellung naturgemäß keine vergleichbare Rechnerlast induziert. Die Bedeutung solcher theoretischen Feinheiten erkennt man allerdings erst, wenn man sein Projekt begonnen hat. Aus Praktikabilitätsgründen habe ich bereits etliche Arbeitsschritte modifiziert und das wird auch wohl noch geraume Zeit so weitergehen


    Wer im "Hier und Jetzt" mit den Dateien arbeiten muss, hat andere Prioritäten als jemand. der einfach nur archiviert im Wissen, dass er die Dokumente in den seltensten Fällen benötigen wird. Dem ersteren der beiden Modelle dürfte die Zunkunft gehören. Auch ein Grund, diesen Thread zu eröffnen, um Zugang zu Erfahrungswerten Mitleidender zu haben. Die im www zu findenden Infos lassen diesen Aspekt meist unberücksichtigt. Von einem Erfahrungsaustausch Gleichgesinnter verpreche ich mir daher eine Ganze Menge. Vielleicht hilft er dem einen oder anderen Neueinsteiger auch, sich höchst entbehrliche Erfahrungen Anderer gleich im Vorfeld zu erparen.


    Denn nicht alle Praktiker sind in der komfortablen Situation von onair, dessen Beitrag ich zu entnehmen glaube, dass er die Dokumente nach ihrer Verarbeitung zusätzlich physisch in Ordnern abheftet und so jederzeit wieder verfpügbar machen kann. Abgesehen von einigen Ausnahmen wandern die von mir gescanten Schriftstücke in einen Unviversalordner mit unbegrenztem Platzangebot ... aber leider ohne Wiederkehr. ;)


    Frankie

  • ja aktuell (in der übergangszeit) bis mal alles abgescannt ist behalte ich meine ordner zusätzlich. sobald ich aber alles eingescannt habe werde ich vieles entsorgen (bis auf die ordner mit wichtigen dokumenten und originalen) so zumindest mein ziel des ganzen ;)

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!