Papierloses Büro: Halbautomatische Archivierung preiswert realisiert 

Inspiriert durch diesen Artikel von Caschy habe ich einmal schnell zusammen geschrieben, wie ich mein papierloses Büro realisiert habe.

postscan_offce-n-pdff

Mein größtes Problem war bisher die Disziplin. Und das hatte einen einfachen Grund. Das Scannen war ja schon immer schnell erledigt, in meinem Fall mit Scanner Pro für iOS oder mit meinem ScanSnap. Doch dann lagen da einen Haufen hübsch benannter PDFs und die musste man sich alle noch einmal ansehen, um ihnen einen sinnvollen Namen zu geben und sie in eine vernünftige Ordnerstruktur abzulegen. Ich habe mir ein Rezept erstellt, mit dem ich das alles ein wenig automatisiere oder zumindest vereinfache. Und das alles zu recht günstigen Konditionen.  Die Zutaten dazu sind:

 

  1. Abby Finereader Corporate (~189,– € HVK, deutlich preiswerter im Netz zu finden)
  2. Autohotkey (kostenlos)
  3. xpdf  (kostenlos)
  4. Total Commander  (37,– €, lebenslange Updates)
  5. Office-N-PDF (69,– €)

Zu den Kosten: Das sind lediglich ~295 € für eine rechtssichere Langzeitarchivierung, die folgendes kann:

  • Perfektes OCR
    • Hohe Erkennungsraten
    • Automatisch im Hintergrund
    • Ordner auf neue Dateien prüfen und geplant verarbeiten
  • Anhand von Regeln
    • den Zielordner bestimmen
    • Metadaten aus dem Dokument lesen
    • PDF-Metadaten schreiben
    • Alternativ oder optional in Evernote ablegen
    • Belegtyp, Belegnummer, Belegdatum und Kundennummer aus Dokument lesen
    • In ERP importieren oder verlinken
  • Zusätzliche Informationen im Verzeichnis
    • Für das schnelle manuelle Umbenennen
    • Zum Verschieben in die richtige  Ordnerstruktur
    • Um Regeln unkompliziert erstellen zu können

Nächster Schritt ist das automatische Aufteilen großer Dokumente, ebenfalls nach Regeln. Wenn bspw. mehr als eine Leer(Trenn-)seite vorhanden ist, neues Dokument anlegen. Oder wenn sich die Belegnummer ändert. Damit ist es dann möglich, große Stapel zu scannen und später aufzutrennen.

Das Rezept

Zunächst werden alle Dokumente gescannt. Hier ist dann einzig der korrekte Zielort von Bedeutung. Der Pfad, der als Hotfolder in Abbyy Finereader konfiguriert wurde. Dateiname ist noch völlig irrelevant. Da man hier nicht viel denken muss, ist das dann schnell erledigt. Und man kann einen mobilen Scanner auch so einrichten, dass er per Cloud ebenfalls in diesen Ordner überträgt.

Nun kommt ein von mir geschriebenes Skript zur Anwendung. Es ist für/mit Autohotkey entwickelt. Die Autohotkey-Dokumentantation ist sehr umfangreich, daher gehe ich zu AHK hier nun nicht detaillierter ein.

Was macht nun mein Skript?

Es schreibt mit xpdf den vorab erkannten Inhalt der PDF in eine descript.ion Datei im gleichen Verzeichnis. Je Dokument dort ein Eintrag. Dies wird dann im Total Commander sehr praktisch angezeigt:

postscan_totalcommander

Zunächst habe ich hier nun die Möglichkeit, anhand diese Texte, die mit Strg-Z je Datei auch in voller Größe angezeigt werden, die Dateien sinnvoll zu benennen und zu verschieben. Doch mein Skript fängt jetzt erst richtig an:

Es liest aus einer XML definierte Regeln: postscan_xml

Aus diesen geht u.a. hervor, was in die Metadaten der PDF geschrieben, nach welchen Suchworten das Dokument mit der Regeln verknüpft, oder auch, nach welchem Datum, Belegnummer, etc. gefunden werden soll.

Sobald das Skript fündig geworden ist und dann auch noch alle Aufgaben erfüllen konnte, wird die Datei ins Archiv an richtige Stelle, mit sprechendem Dateinamen und informativen Metadaten verschoben. postscan_pdf

Sollte das Skript zwar zum Dokument eine Regel gefunden haben, aber es fehlen erforderliche Daten, wird dies ebenfalls wieder in die descript.ion-Datei geschrieben und ich sehe sofort, für welche Dateien ich die Regeln überarbeiten muss. Im optimalen Fall, habe ich für alle meine eingehenden Belege Regeln definiert. Dann brauche ich nur noch scannen. Sonst nichts. Danach ist der Eingangsordner leer.

Evernote-Integration

Für Dokumente, die ich mobil dabei haben möchte, kann ich Evernote-Daten angeben. Sie werden dann auch gleich mit Tags und ordentlichem Titel dort importiert.

Das Langzeitarchiv

Nun müssen die Dokumente noch gesetzeskonform in ein unveränderliches Langzeitarchiv. Hierzu verwende ich Office-N-PDF von JBSoftware. Diese Lösung hat den für mich den entscheidenden Vorteil: Es importiert Archive aus einer Ordnerstruktur und bildet diese exakt im Kategoriebaum so ab. Und beim Export kann man diese Struktur ebenfalls wiederherstellen. Hieraus ergibt sich in Kombination mit den Metadaten im PDF-Dokument eine völlige Unabhängigkeit. Solange es aber JBSoftware gibt, Office-N-PDF weiterentwickelt wird, kann ich mich an Volltextsuche, schönem Kategoriebaum, gespeicherte Suchen (bspw für Steuererklärung) und vielem mehr erfreuen.

ERP-Integration

Im ERP-System, im meinem Fall TimeLine Enterprise, möchte ich nun ebenfalls diese Dokumente im Zugriff haben. Hier importiere ich, ebenfalls mit meinem Skript, komprimierte, kleinere Versionen der archivierten Dokumente inkl. eines Office-N-PDF-URL zum Archiv, so es dann doch mal das Original sein muss.

Und die Originale?

Die Originale hefte ich in Ordnern, je Jahr, unterteilt je Monat, chronologisch ab. Es wird nichts entsorgt. Durch die Chronologie ist aber dennoch alles immer schnell wiederfindbar. Da brauche ich weder Barcodes noch sonstige Stempel. Da ich mit einem Ordner je Jahr hinkomme, maximal 2, nimmt das alles nicht nennenswert Platz weg.

Fazit

Es war zugegebenermaßen recht viel Arbeit, das Autohotkey-Skript zu schreiben, zumal ich die Sprache auch noch mehr lernen musste. Meine Zeit eingerechnet, ist das vielleicht doch nicht eine so ganz preiswerte Lösung. Aber ich wollte auch AHK lernen. Und ich bin nun unabhängig. Letzteres gerade für meine in mancher Hinsicht wertvollen Dokumente, ein unglaublich wichtiges Argument. Und es ist natürlich auch nicht zu vergessen, dass die Regeln geschrieben werden müssen. Das hatte ich in einer ersten Version alles in einer CSV-Datei. Hier hat sich die Umstellung auf XML wirklich gelohnt. Denkbar wäre nun noch, die Regeln im ERP-System abzulegen. Aber auch das ist meiner geplanten Folgeversion vorbehalten.

 

 

 

 

 

 

20 Gedanken zu „Papierloses Büro: Halbautomatische Archivierung preiswert realisiert 

  1. interessanter Beitrag, wo ich schauen werde, wie dies für mich umsetzbar.

    Jedoch finde ich die Baumstruktur nicht mehr zeitgemäß, wäre es nicht möglich die Metadaten so einzusetzen, dass die in eine PDF/A eingebettete tags eine Suche möglich ist? (ähnlich der sogenannten Magnete von http://www.amagno.de)
    Der Vorteil wäre, dass Belege (einmalig) an einem zentralen Ort liegen und Mehrfachverknüpfungen (bspw. Projekte/Buchhaltung) vorhanden sind.

  2. Das stimmt, ich finde eigentlich auch Tags sinnvoller. Nutze ich aber auch, schreibe ich in die Metadaten der PDF. Und durch einen guten Dateinamen, getrennte Begriffe durch „_“ kann ich auch mit Everything gesuchtes schnell finden. Letztlich habe ich zig Möglichkeiten, der Baum ist eine davon.

  3. Durchaus interessanter Ansatz!
    Im Detail würde nun natürlich dein Skript interessieren.
    Das hast du bewusst nicht angehangen?

  4. Wenn dich das interessiert, sende ich es dir per E-Mail. Wenn das Interesse allgemein größer werden sollte, biete ich es zum Download an. Dann muss ich es aber noch besser dokumentieren.

  5. Das Angebot nehme ich gerne an.
    Vielleicht überzeugen mich diese technischen Möglichkeiten endlich, den Schalter zum Papierloseren Büro umzulegen. 😉
    Danke im Voraus!

  6. Hallo Volker,
    ich interessiere mich auch für das Script und würde mich freuen wenn du es zur Verfügung stellen könntest. Vielen Dank!

  7. Hallo Volker,

    das klingt doch nach der lange vermissten Lösung für das leidige manuelle Einsortieren. Ein Blick in dein Skript würde mich da sehr freuen.

    Danke im Voraus!

  8. Pingback: Reguläre Ausdrücke im PowerBuilder | volker @ moench

  9. Sehr interessanter Beitrag. Ich habe es etwas anders gelöst: Ich habe alle meine gescannten PDF Dokumente in einem einzigen Verzeichnis. Mit der praktischen Software „FileMeta“ habe ich einmalig die Anzeige von MetaDaten aus PDFs im Windows Explorer freigeschaltet. Ich habe dann 5 weitere Spalten im Explorer, also neben Dateiname, Datum und Größe sehe ich nun auch noch Titel, Betreff, Autor, Kommentar und Kategorie. Eines dieser Felder fülle ich mit dem Originaldatum des Dokumentes. Ich kann nur durch einfachen Klick nach jeder beliebigen Spalte sortieren und Filtern wie in einer Datenbank. Alle Briefe meiner Bank: Klick. Alle Briefe vom Typ „Vertrag“: Klick. Alle Briefe vom 01.06.2015 bis zum 31.12.2016: Klick. Und natürlich kann man die Suchargumente kombinieren: Alle Rechnungen mit den beiden Merkmalen „Steuerrelevant“ und „meine Frau“ von 2016: Klick. Das finde ich insgesamt praktischer als mit Unterverzeichnissen zu hantieren.

    Deine Autohotkey Scripte würden mich allerdings auch sehr interessieren denn die Vergabe der Metadaten erfolgt bei mir noch komplett von Hand…Da ich seit vielen Jahren Autohotkey nutze sollte ich mich dort schnell zurechtfinden. Wäre echt super! Vielen Dank!

  10. Hallo Hilmar,

    ich habe das inzwischen gar nicht mehr mit Autohotkey gelöst, sondern mit SAP (Sybase) PowerBuilder. Das hat nun eine richtige Oberfläche und alles in einer SQL-Datenbank. Erkannt wird hier ordentlich per RegEx. Aber von meiner Archivierungslösung (Office-N-PDF) verabschiede ich mich auch, da der automatische Import weitere Lizenzgebühren kostet. Ich werde es wie du machen. Habe auch eine schöne portable Volltextsuche gefunden.

    Das AHK-Skript krame ich heute Abend hervor und sende es dir.

    Gruß
    Volker

  11. Sehr interessant das neue Konzept. Klingt für mich aber (privat) sehr gigantisch. SAP ist ja sonst eher im Enterprise Umfeld unterwegs. Wie kommst du denn an so etwas?

  12. Hallo Volker,

    finde Deinen Ansatz sehr interessant und habe mir deshalb auch Autohotkey angeschaut. Bin jetzt noch nicht ganz so tief in der Materie drin, dass ich selber so ein Skript schreiben könnte und würde Dich bitten, mir doch auch Dein AHK-Skript zukommen zu lassen.

    Gruß
    Rainer

  13. Ich habe beruflich nahezu täglich mit PowerBuilder zu tun, daher war das doch ziemlich naheliegend. 😉 Und so gigantisch ist das gar nicht. PowerBuilder ist ein RAD-Tool.

  14. Hallo Volker,

    auch ich wäre sehr froh wenn ich die von Dir erstellete Lösung einsetzen darf. Bitte sende mir Dein Script zu.

    Vielen Dank im Voraus.

    Gruß
    Frank

  15. Hei Volker

    ich bin über Caschy’s Blog auf deinen Artikel gestoßen. Ich suche auch eine (halb)automatische Lösung, mit der ich Tags in pdf-Dateien eintragen kann…
    Dein Script könnte mir da einiges abnehmen. Könntest du es mir zusenden?

    Vielen Dank im Voraus und Grüße aus dem Südschwarzwald.
    Jürgen

  16. Hallo Jürgen,

    ich habe das Projekt eingestampft und in SAP PowerBuilder neu entwickelt. Da ich mal davon ausgehe, dass du an PowerBuilder eher nicht interessiert bist, hat es keinen Sinn, dir Sourcecode zu senden.

    Die Pflegerei der Regeln ist übrigens im Privaten recht lästig, da man hier nicht so häufig die gleichen Belege bekommt.

    Viele Grüße
    Volker

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.