Papierloses Büro: Halbautomatische Archivierung preiswert realisiert 

Inspiriert durch diesen Artikel von Caschy habe ich einmal schnell zusammen geschrieben, wie ich mein papierloses Büro realisiert habe.

postscan_offce-n-pdff

Mein größtes Problem war bisher die Disziplin. Und das hatte einen einfachen Grund. Das Scannen war ja schon immer schnell erledigt, in meinem Fall mit Scanner Pro für iOS oder mit meinem ScanSnap. Doch dann lagen da einen Haufen hübsch benannter PDFs und die musste man sich alle noch einmal ansehen, um ihnen einen sinnvollen Namen zu geben und sie in eine vernünftige Ordnerstruktur abzulegen. Ich habe mir ein Rezept erstellt, mit dem ich das alles ein wenig automatisiere oder zumindest vereinfache. Und das alles zu recht günstigen Konditionen.  Die Zutaten dazu sind:

 

  1. Abby Finereader Corporate (~189,– € HVK, deutlich preiswerter im Netz zu finden)
  2. Autohotkey (kostenlos)
  3. xpdf  (kostenlos)
  4. Total Commander  (37,– €, lebenslange Updates)
  5. Office-N-PDF (69,– €)

Zu den Kosten: Das sind lediglich ~295 € für eine rechtssichere Langzeitarchivierung, die folgendes kann:

  • Perfektes OCR
    • Hohe Erkennungsraten
    • Automatisch im Hintergrund
    • Ordner auf neue Dateien prüfen und geplant verarbeiten
  • Anhand von Regeln
    • den Zielordner bestimmen
    • Metadaten aus dem Dokument lesen
    • PDF-Metadaten schreiben
    • Alternativ oder optional in Evernote ablegen
    • Belegtyp, Belegnummer, Belegdatum und Kundennummer aus Dokument lesen
    • In ERP importieren oder verlinken
  • Zusätzliche Informationen im Verzeichnis
    • Für das schnelle manuelle Umbenennen
    • Zum Verschieben in die richtige  Ordnerstruktur
    • Um Regeln unkompliziert erstellen zu können

Nächster Schritt ist das automatische Aufteilen großer Dokumente, ebenfalls nach Regeln. Wenn bspw. mehr als eine Leer(Trenn-)seite vorhanden ist, neues Dokument anlegen. Oder wenn sich die Belegnummer ändert. Damit ist es dann möglich, große Stapel zu scannen und später aufzutrennen.

Das Rezept

Zunächst werden alle Dokumente gescannt. Hier ist dann einzig der korrekte Zielort von Bedeutung. Der Pfad, der als Hotfolder in Abbyy Finereader konfiguriert wurde. Dateiname ist noch völlig irrelevant. Da man hier nicht viel denken muss, ist das dann schnell erledigt. Und man kann einen mobilen Scanner auch so einrichten, dass er per Cloud ebenfalls in diesen Ordner überträgt.

Nun kommt ein von mir geschriebenes Skript zur Anwendung. Es ist für/mit Autohotkey entwickelt. Die Autohotkey-Dokumentantation ist sehr umfangreich, daher gehe ich zu AHK hier nun nicht detaillierter ein.

Was macht nun mein Skript?

Es schreibt mit xpdf den vorab erkannten Inhalt der PDF in eine descript.ion Datei im gleichen Verzeichnis. Je Dokument dort ein Eintrag. Dies wird dann im Total Commander sehr praktisch angezeigt:

postscan_totalcommander

Zunächst habe ich hier nun die Möglichkeit, anhand diese Texte, die mit Strg-Z je Datei auch in voller Größe angezeigt werden, die Dateien sinnvoll zu benennen und zu verschieben. Doch mein Skript fängt jetzt erst richtig an:

Es liest aus einer XML definierte Regeln: postscan_xml

Aus diesen geht u.a. hervor, was in die Metadaten der PDF geschrieben, nach welchen Suchworten das Dokument mit der Regeln verknüpft, oder auch, nach welchem Datum, Belegnummer, etc. gefunden werden soll.

Sobald das Skript fündig geworden ist und dann auch noch alle Aufgaben erfüllen konnte, wird die Datei ins Archiv an richtige Stelle, mit sprechendem Dateinamen und informativen Metadaten verschoben. postscan_pdf

Sollte das Skript zwar zum Dokument eine Regel gefunden haben, aber es fehlen erforderliche Daten, wird dies ebenfalls wieder in die descript.ion-Datei geschrieben und ich sehe sofort, für welche Dateien ich die Regeln überarbeiten muss. Im optimalen Fall, habe ich für alle meine eingehenden Belege Regeln definiert. Dann brauche ich nur noch scannen. Sonst nichts. Danach ist der Eingangsordner leer.

Evernote-Integration

Für Dokumente, die ich mobil dabei haben möchte, kann ich Evernote-Daten angeben. Sie werden dann auch gleich mit Tags und ordentlichem Titel dort importiert.

Das Langzeitarchiv

Nun müssen die Dokumente noch gesetzeskonform in ein unveränderliches Langzeitarchiv. Hierzu verwende ich Office-N-PDF von JBSoftware. Diese Lösung hat den für mich den entscheidenden Vorteil: Es importiert Archive aus einer Ordnerstruktur und bildet diese exakt im Kategoriebaum so ab. Und beim Export kann man diese Struktur ebenfalls wiederherstellen. Hieraus ergibt sich in Kombination mit den Metadaten im PDF-Dokument eine völlige Unabhängigkeit. Solange es aber JBSoftware gibt, Office-N-PDF weiterentwickelt wird, kann ich mich an Volltextsuche, schönem Kategoriebaum, gespeicherte Suchen (bspw für Steuererklärung) und vielem mehr erfreuen.

ERP-Integration

Im ERP-System, im meinem Fall TimeLine Enterprise, möchte ich nun ebenfalls diese Dokumente im Zugriff haben. Hier importiere ich, ebenfalls mit meinem Skript, komprimierte, kleinere Versionen der archivierten Dokumente inkl. eines Office-N-PDF-URL zum Archiv, so es dann doch mal das Original sein muss.

Und die Originale?

Die Originale hefte ich in Ordnern, je Jahr, unterteilt je Monat, chronologisch ab. Es wird nichts entsorgt. Durch die Chronologie ist aber dennoch alles immer schnell wiederfindbar. Da brauche ich weder Barcodes noch sonstige Stempel. Da ich mit einem Ordner je Jahr hinkomme, maximal 2, nimmt das alles nicht nennenswert Platz weg.

Fazit

Es war zugegebenermaßen recht viel Arbeit, das Autohotkey-Skript zu schreiben, zumal ich die Sprache auch noch mehr lernen musste. Meine Zeit eingerechnet, ist das vielleicht doch nicht eine so ganz preiswerte Lösung. Aber ich wollte auch AHK lernen. Und ich bin nun unabhängig. Letzteres gerade für meine in mancher Hinsicht wertvollen Dokumente, ein unglaublich wichtiges Argument. Und es ist natürlich auch nicht zu vergessen, dass die Regeln geschrieben werden müssen. Das hatte ich in einer ersten Version alles in einer CSV-Datei. Hier hat sich die Umstellung auf XML wirklich gelohnt. Denkbar wäre nun noch, die Regeln im ERP-System abzulegen. Aber auch das ist meiner geplanten Folgeversion vorbehalten.

 

 

 

 

 

 

35 Gedanken zu „Papierloses Büro: Halbautomatische Archivierung preiswert realisiert 

  1. interessanter Beitrag, wo ich schauen werde, wie dies für mich umsetzbar.

    Jedoch finde ich die Baumstruktur nicht mehr zeitgemäß, wäre es nicht möglich die Metadaten so einzusetzen, dass die in eine PDF/A eingebettete tags eine Suche möglich ist? (ähnlich der sogenannten Magnete von http://www.amagno.de)
    Der Vorteil wäre, dass Belege (einmalig) an einem zentralen Ort liegen und Mehrfachverknüpfungen (bspw. Projekte/Buchhaltung) vorhanden sind.

  2. Das stimmt, ich finde eigentlich auch Tags sinnvoller. Nutze ich aber auch, schreibe ich in die Metadaten der PDF. Und durch einen guten Dateinamen, getrennte Begriffe durch „_“ kann ich auch mit Everything gesuchtes schnell finden. Letztlich habe ich zig Möglichkeiten, der Baum ist eine davon.

  3. Durchaus interessanter Ansatz!
    Im Detail würde nun natürlich dein Skript interessieren.
    Das hast du bewusst nicht angehangen?

  4. Wenn dich das interessiert, sende ich es dir per E-Mail. Wenn das Interesse allgemein größer werden sollte, biete ich es zum Download an. Dann muss ich es aber noch besser dokumentieren.

  5. Das Angebot nehme ich gerne an.
    Vielleicht überzeugen mich diese technischen Möglichkeiten endlich, den Schalter zum Papierloseren Büro umzulegen. 😉
    Danke im Voraus!

  6. Hallo Volker,
    ich interessiere mich auch für das Script und würde mich freuen wenn du es zur Verfügung stellen könntest. Vielen Dank!

  7. Hallo Volker,

    das klingt doch nach der lange vermissten Lösung für das leidige manuelle Einsortieren. Ein Blick in dein Skript würde mich da sehr freuen.

    Danke im Voraus!

  8. Pingback: Reguläre Ausdrücke im PowerBuilder | volker @ moench

  9. Sehr interessanter Beitrag. Ich habe es etwas anders gelöst: Ich habe alle meine gescannten PDF Dokumente in einem einzigen Verzeichnis. Mit der praktischen Software „FileMeta“ habe ich einmalig die Anzeige von MetaDaten aus PDFs im Windows Explorer freigeschaltet. Ich habe dann 5 weitere Spalten im Explorer, also neben Dateiname, Datum und Größe sehe ich nun auch noch Titel, Betreff, Autor, Kommentar und Kategorie. Eines dieser Felder fülle ich mit dem Originaldatum des Dokumentes. Ich kann nur durch einfachen Klick nach jeder beliebigen Spalte sortieren und Filtern wie in einer Datenbank. Alle Briefe meiner Bank: Klick. Alle Briefe vom Typ „Vertrag“: Klick. Alle Briefe vom 01.06.2015 bis zum 31.12.2016: Klick. Und natürlich kann man die Suchargumente kombinieren: Alle Rechnungen mit den beiden Merkmalen „Steuerrelevant“ und „meine Frau“ von 2016: Klick. Das finde ich insgesamt praktischer als mit Unterverzeichnissen zu hantieren.

    Deine Autohotkey Scripte würden mich allerdings auch sehr interessieren denn die Vergabe der Metadaten erfolgt bei mir noch komplett von Hand…Da ich seit vielen Jahren Autohotkey nutze sollte ich mich dort schnell zurechtfinden. Wäre echt super! Vielen Dank!

  10. Hallo Hilmar,

    ich habe das inzwischen gar nicht mehr mit Autohotkey gelöst, sondern mit SAP (Sybase) PowerBuilder. Das hat nun eine richtige Oberfläche und alles in einer SQL-Datenbank. Erkannt wird hier ordentlich per RegEx. Aber von meiner Archivierungslösung (Office-N-PDF) verabschiede ich mich auch, da der automatische Import weitere Lizenzgebühren kostet. Ich werde es wie du machen. Habe auch eine schöne portable Volltextsuche gefunden.

    Das AHK-Skript krame ich heute Abend hervor und sende es dir.

    Gruß
    Volker

  11. Sehr interessant das neue Konzept. Klingt für mich aber (privat) sehr gigantisch. SAP ist ja sonst eher im Enterprise Umfeld unterwegs. Wie kommst du denn an so etwas?

  12. Hallo Volker,

    finde Deinen Ansatz sehr interessant und habe mir deshalb auch Autohotkey angeschaut. Bin jetzt noch nicht ganz so tief in der Materie drin, dass ich selber so ein Skript schreiben könnte und würde Dich bitten, mir doch auch Dein AHK-Skript zukommen zu lassen.

    Gruß
    Rainer

  13. Ich habe beruflich nahezu täglich mit PowerBuilder zu tun, daher war das doch ziemlich naheliegend. 😉 Und so gigantisch ist das gar nicht. PowerBuilder ist ein RAD-Tool.

  14. Hallo Volker,

    auch ich wäre sehr froh wenn ich die von Dir erstellete Lösung einsetzen darf. Bitte sende mir Dein Script zu.

    Vielen Dank im Voraus.

    Gruß
    Frank

  15. Hei Volker

    ich bin über Caschy’s Blog auf deinen Artikel gestoßen. Ich suche auch eine (halb)automatische Lösung, mit der ich Tags in pdf-Dateien eintragen kann…
    Dein Script könnte mir da einiges abnehmen. Könntest du es mir zusenden?

    Vielen Dank im Voraus und Grüße aus dem Südschwarzwald.
    Jürgen

  16. Hallo Jürgen,

    ich habe das Projekt eingestampft und in SAP PowerBuilder neu entwickelt. Da ich mal davon ausgehe, dass du an PowerBuilder eher nicht interessiert bist, hat es keinen Sinn, dir Sourcecode zu senden.

    Die Pflegerei der Regeln ist übrigens im Privaten recht lästig, da man hier nicht so häufig die gleichen Belege bekommt.

    Viele Grüße
    Volker

  17. Hallo Volker,
    bin wie Jürgen über Caschys Blog bei dir gelandet. Ich suche ebenfalls eine Möglichkeit meine Dokumente (PDF) mit MetaDaten zu versehen, würde ich mich freuen wenn du mir deine AHK Skripte mir zu Verfügung stellen kannst.

    Viele Grüße
    Alexander

  18. Hallo Alexander,
    ich habe das Projekt leider nicht weitergeführt, da ich mir Office-N-PDF gekauft habe. Die Archivierung nur im Dateisystem hat sich bei mir als nicht verlässlich erwiesen. Ich brauche einen Kategorienbaum in einer Datenbank und eine unkomplizierte Volltextsuche. All das liefert mir Office-N-PDF. Mir ist es zudem gelungen, versehentlich Dateien zu löschen, das passiert in einer echten Archivierungslösung nicht. Fühlt sich in einem Programm einfach sicherer an….
    Viele Grüße
    Volker

  19. Hallo Volker,
    danke für die warnende Worte, leider ist in meinem Fall so das ich meine Daten nicht in eine „Blackbox“ verwalten lassen will.
    Was meine ich damit … ich verwalte die Daten in Software XXXXX, nun will ich wechseln:
    – Export wird oft angeboten aber die Metadaten sind in der DB oder
    – manche der Softwarehersteller gibt mit Glück die Metadaten in XML oder
    – oder noch frei aber nicht in der PDF-Datei selbst
    Somit bleibt die PDF „unberührt“ im privatem Umfeld ist das aber egal.
    Welcher Privat User macht sich nun die Arbeit und verarbeitet die XML (o.Ä.) um die Daten in die PDF zu kriegen???
    Also nun bin ich zu Software YYYYYY gewechselt und kann wieder alles neu eingeben/ kategorisieren …

    Genau das will ich nicht und wollte gerne das mit deinen Skripten versuchen denn die hören sich gut an,
    denn dein Verfahren empfinde ich als näher liegendste für meinen Gedankengang.

    Was die Backups angeht, da mache ich mir keine Sorgen … da habe ich ein mehrfaches Konzept.

    Mit freundlichem Gruß
    Alexander

  20. Hallo Alexander,

    du gibts nahezu 100% meine damaligen Gedanken wieder. Ich habe genau aus diesen Gründen mir damals die Arbeit gemacht was selber zu frickeln. Aber Office-N-PDF kann meine Dateien recht gut wieder hergeben. Die Ordnerstruktur entspricht dem Kategoriebaum und ich versuche Meta-Daten nur in die PDF zu schreiben. Aber ich habe recht viel Vertrauen, dass es O-N-P noch lange gibt, da es von großen Unternehmen eingesetzt wird.

    Viele Grüße
    Volker

  21. Ich verfolge die Thematik schon sehr lange und auch hier im Thread (siehe #1).
    In anderen Bereichen ist der Wandel stärker, siehe DATEV vom reinen Stb-Dienstleister, der zwischenzeitlich bis zum Endkunden (UO) liefert und darüber hinaus mit DATEV Connect auch Drittanbietern die Türen öffnet. (wobei weiter noch Potenzial nach oben ist 🙂 )
    Neue Ansatzpunkte machen newcomer bspw. wie https://www.fastbill.com/funktionen bzw. https://www.papierkram.de/ es jedoch so, dass die Belege automatisch zu den Kontoumsätzen hinzugefügt werden. Dh. Onlinebanking und Buchhaltung verschwimmen bzw. inkl. Fakturierung.

    Selbst Microsoft hat erkannt dass die Ordnungsstruktur nicht das wahre ist und Google (bei Gmail) hat es vollzogen mit den Labels.

    Die alten Produkte/Entwickler (DMS/EMS) müssen daher mehr machen wie hier und dort optimieren**. … sich dringend neu aufstellen, bevor eine „Entwickler-Idee“ wie ein ICE angerauscht kommt mit einem kundenfreundlichen Produkt.
    **Der Kunde/User kann sich ja selbst ein Bild machen, ob er das „neu“ und „innovativ“ findet: https://www.jbsoftware.de/office-n-pdf/neuefunktionen.htm – hätte auch jederzeit ein anderen Vergleich nehmen können (wie PaperPort) hüstel …

  22. Absolut richtig. Ich verwende Ordnerstrukturen auch nur grob. Und du erinnerst mich gerade an genau dieses Problem, welches ich im Dateisystem lösen wollte. Das hatte ich mit TagSpaces https://www.tagspaces.org/ sogar ganz gut hinbekommen. (Frage mich warum es in Betriebssystemem 2018 noch immer keine Tags gibt) Aber Datev und Konsorten sind eher nicht relevant für die private Archivierung. Ein bspw. archivierter Vertrag hat auch nichts mit Buchungen der Fibu zu tun.

  23. Dann ist mein Text teilweise falsch rüber gekommen, ich wollte aufzeigen, dass selbst „konservative Branche“ (Buchhaltung/Banking/Steuer) sich aktuell >neuerfinden muss was sofortimmer< darauf zugreifen.

    so nun aber genug mit meinem "Ausflug in den Bereich Rechnung&Co" hier geht es ja generell um die PDFs

  24. 2ter Versuch (Text hat es teilweise zerhauen/nicht übernommen)
    Dann ist mein Text teilweise falsch rüber gekommen, ich wollte aufzeigen, dass selbst „konservative Branche“ (Buchhaltung/Banking/Steuer) sich aktuell neu erfindet bzw. erfinden muss. Belege/Rechnungen werden nicht mir im Ordner abgeheftet, sondern werden dem Kontoumsatz angepinnt und das von Privat bis geschäftlich.

    Ich hätte auch Wiso heranziehen können, wo die Steuerklärung automatisiert wird, nämlich auf Grundlage von den Kontoumsätzen/Belege.
    https://www.buhl.de/steuer-web/steuer-automatik/
    Dh. nicht wie bisher der User füttert nur die Daten, sondern das Programm macht Vorschläge wie o.e. auf Grundlage der Kontoumsätze/Belege.

    Dein Archivierter Vertrag hat sehr wohl was mit Buchungen in der „modernen Buchführung/Baking“ zu tun. Bei http://www.starmoney.de bspw. können die Belege zum einen automatisch verarbeitet/erkannt werden (Fotoüberweisung/Gini) und zum anderen gleich angeheftet. Die Comdirect hat bspw. hier das Rechnungs-/Vertrags-Archiv ua. erklärt: https://www.comdirect.de/cms/kontakt-zugaenge-smartpay-app.html bzw in der App unter Punkt 3 auch erklärt: https://play.google.com/store/apps/details?id=de.comdirect.smartpay&hl=de
    Ich hab hier also eine „Banking-Cloud-Lösung“
    Die Frage ist daher eher, was muss überhaupt noch in ein DMS/EMS rein – eigentlich nur „normale Korrespondenz“, denn ein Vertrag würde ich hier ja nur archivieren. Im o.g. Fall arbeite ich „aktiv“ damit, denn er wird jeweils hinzugefügt.

    anderes Beispiel:
    Vermietung eines Mehrfamilienhauses, im Normalfall wird der Mietvertrag abgelegt. Nur in Problemfällen, wird dieser digital oder analog herangezogen.
    In der modernen Buchhaltung ist dieser immer „kopiert/verknüpft“ mit jeder Transaktion, somit kann der Buchhalter/Sachbearbeiter o.ä. sofort und immer darauf zugreifen.

    so nun aber genug mit meinem „Ausflug in den Bereich Rechnung&Co“ hier geht es ja generell um die PDFs

  25. TagSpaces habe ich angeschaut, ja es ist angenehm wenn die Suche mit Everything oder Windows (Indexierung eingeschaltet) oder dem NAS(!!!) zu suchen und schnell zu finden.
    Das Problem and er ganzen Sache sind die langen Dateinamen die schnell zu tragen kommen
    z.B. YYYY-MM-TT FIRMA Certified Sales Professional YYYY-YYYY2.pdf
    und daran sollen noch weitere Tags?, in meinem Fall „Zertifikat, Weiterbildung, FIRMA, Arbeit“ (außer die Tags werden ins „sidecar files“ gespeichert), bin dann wieder an der Software gebunden.

    Dadurch das ich mein Dokumente alle OCR scanne (Fujitsu Scanner+Abbyy – wegen der Erkennung mache ich mir keine Sorge), in der Regel suche ich meine Dokumente über DocFetcher, da der auch „in der Datei“ sucht. Da der DocFetcher die PDF Metadaten ebenfalls mitliest (und durch Instantane Suche ebenfalls Millisekunden schnell) finde ich schnell die Dokumente die ich suche, aber dafür muss ich eben die Begriffe im Dateinamen kennen bzw. durch OCR erkannt sein. Deswegen trage ich aktuell manuell Schlüsselwörter in die PDF Metadaten ein, damit ich nach diesen suchen kann (z.B Steuer_2017) und mit entsprechenden Syntax habe ich immer das gewünschte! (deine 1&1 Rechnung)

    Aber das manuelle eintragen will ich nicht, Rechtschreibfehler passieren zu schnell usw.

    Da ich auch „nur“ eine Ordnermatrix von maximal 10×10 (im durchschnitt 10HauptordnerX5Unterordner) habe, habe ich eine leichte Struktur, den Rest muss die Software können.

    O-n-P, ecoDMS usw. habe ich schon hinter mir, alles entweder eine Blackbox oder starre Ordnerstruktur, wo ich in meinem Fall O-n-P sehe ist als einer Art geschlossene Archivbox damit ich nichts aus versehen lösche, wie von dir mal erwähnt.

    Deswegen bitte ich noch mal, wenn möglich und gewollt mir die Skripte zuschicken (oder im Beitrag anhängen) 🙂

    Mit freundlichem Groß
    Alex

  26. Hallo Alex,

    ich werde das Skript heute Abend heraus suchen. Ist ja schon ein paar Tage her. Aber du musst dir das auf jeden Fall ansehen und anpassen. Ich habe bei „fast fertig“ oder auch schon etwas früher aufgehört. Aber es funktionierte.

    Viele Grüße
    Volker

  27. wobei man aber auch sagen muss, dass die Windows10 Basis-Suche zu den (OS-) Vorgängern stark verbessert wurde.
    Wenn die Dateien/Dokumente OCR bearbeitet sind, wird auch intern gesucht.

  28. @ Volker
    danke, werde warten, das ich es ggf. anpassen muss ist verständlich, da es ja nicht für den „großen“ Markt bestimmt ist/war.

    @ Marc
    Das die Basis Suche sich verbessert hat, hast du recht, aber sobald es um eine bisschen kompliziertere Suche, dann nehme ich doch lieber alles andere aber nicht die Windows Suche. Was aber leider auch gleich geblieben ist (trotz der Indexierung) das es immerhin bisschen dauert, mehr als bei den anderen Programmen

  29. Hallo Volker,
    wollte dir für das Script danken, auch dafür das du auf allen wegen versucht hast mir es zur Verfügung zustellen.
    Leider ist es so das dort wohl eine Datei fehlt „extrakt.ahk“ kannst du die bitte auch noch zuschicken?
    DANKE dir nochmals!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.