Moin, ich habe mal ein paar Fragen zur "Best Practice" / Erfahrungswerten. Ich möchte erstmal testhalber das eine oder andere meiner Dokumente digital ablegen (Parallel zur Papierablage, es geht mir aktuell nicht darum, diese zu ersetzen, sondern darum, auf bestimmte Dokumente auch unterwegs zugreifen zu können). - Weil es wirklich "nicht viele" sind, reicht mir ehrlich gesagt vermutlich, einfache Scans abzulegen - Trotzdem bin ich gedanklich dabei natürlich auch über die Variante gestolpert, mit OCR-Lösungen auch Durchsuchbarkeit zu erzeugen. Frage: Was ist für letzteres eure übliche Herangehensweise? Es gibt ja diverse Lösungen, die den Originalscan in eine .pdf packen, und unsichtbar(?) drüber den per OCR erkannten Text. Scheint mir für mich sinnvoller, auf diese Weise das originale Layout beizubehalten, als die Herangehensweise, die Formatierung des Dokuments erkennen zu wollen, um z.B. auch Word/.../-Export zu haben, weil bearbeiten will ich eigentlich nichts mehr. Frage: Falls ich mir doch mal einzelne Passagen extrahieren möchte, um sie z.B. in meinen Notizen ablegen zu können: Tesseract scheint mir hier ja ein gutes Stichwort zu sein, gibt es da gute Lösungen, die das nutzen, aber noch ein bisschen GUI drum herum stricken? Z.B. zur Auswahl einzelner Passagen, ..? Ich hoffe, die Frage erscheint Euch nicht zu vage, aber ich wollte es vermeiden, erst zehn schlechte Lösungen auszuprobieren, wenn ihr bestimmt guten Input liefern könnt :) VG FargoTof
Mache das so, wie du es wirklich brauchst. Nicht alles machen, nur weil es möglich ist.
Ich mache das auch so mit PDF beim Scannen. Ob jetzt PA, Führerschein usw. oder auch Rechnungen u.a. Man braucht halt später nur einen PDF-Reader zum Lesen.
Ich habe vor einiger Zeit komplett auf "papierlos" umgestellt. D.h. ich sammle alle Zettel, und einmal im Monat schiebe ich sie durch den Einzugsscanner. Das hat sich ziemlich gut bewährt. Vor allem die Durchsuchbarkeit und der Zugriff von Unterwegs haben mir schon oft das Leben gerettet :-) Um das ganze weitestgehend zu automatisiren, habe ich mir folgendes Skript gebaut. Vielleichts hilfts Dir ja:
1 | #!/bin/bash
|
2 | |
3 | # Scan the image using scanimage (TIFF is used because it can contain multiple pages)
|
4 | echo "Scanning pages" |
5 | mkdir scans_temp
|
6 | scanimage --device-name "brother5:bus1;dev2" -y 297.0 -x 210.0 --mode "Black & White" --resolution 400 --AutoDeskew=yes --source "Automatic Document Feeder(left aligned,Duplex)" --batch="scans_temp/scan%d.pnm" --format=pnm |
7 | |
8 | # Convert to PDF using ImageMagick
|
9 | echo "Converting images to PDF" |
10 | convert scans_temp/*.pnm document.pdf
|
11 | |
12 | # Use OCRmyPDF to add OCR layer. Store result in home folder
|
13 | echo "Applying OCR to PDF" |
14 | file_name=~/$(date +"%Y")_Source_Topic.pdf |
15 | ocrmypdf -l deu --output-type pdfa --pdfa-image-compression jpeg document.pdf $file_name |
16 | |
17 | # Cleanup
|
18 | rm -rf scans_temp |
19 | rm document.pdf
|
20 | |
21 | # Open file
|
22 | xdg-open $file_name
|
Dabei werden "scanimage", "ImageMagick" und "OCRmyPDF" verwendet. Die Dateien sind nachher schön klein, sehen gut aus und die OCR klappt hervorragend.
:
Bearbeitet durch User
Viele nuzen Paperless und es hat eine hilfreiche Community. Eine OCR über einen Scan rüberbügeln ist 2023 ein Leichtes. KI Erkennung von Dokumententyp und Experption von z.B. Kontonummern, Forderungsbeträgen, Geschäftszeichen etc geht heute auch. Dann ist der Beleg auch gleich gebucht. Braucht man das als Privater? Wieviele Dokumente sollen rein, wieviel kommen per anno dazu, wieviele Nutzer? Wichtiger ist: Bau dir deinen eigenen Schalgwortkatalog. Das Ding MUSS zukunftsstabil sein. Der Katalog muss auch in 50 Jahren noch passen. Feiner Verästeln kann man immer, wenn du den Stamm durchsägst, fällt der Schlagwortbaum um. Die 10 goldenen Regeln eines unbrauchbaren Schlagwortkatalog: https://www.biblio.at/medien/pdf/biblio_beschlagwortung.pdf
Bernd schrieb: > Ich habe vor einiger Zeit komplett auf "papierlos" umgestellt. Das ist eine tolle Idee. Hatte ich auch gemacht mit den Rechnungen und allem. Dann aber gab es dauernd Rückfragen zu einzureichenden Rechnugen vom Finanzamt, weil heute immer mehr Rechnungen gefälscht werden. Reichts du papierlos ein, kriegst du mehr Rückfragen. Die Originale müssen in jedem Fall aufbehalten werden.
Ja, ja, das olle Finanzamt. Andere Ämter (z.b. Berufsgenossenschaft, Katasteramt usw.) aktzeptieren das schon als Bild oder PDF. Gerade letzte Woche gemacht. Unsere vor zweieinhalb Jahren verstorbene Mutter als Gewerbetreibende abgemeldet und die Sterbeurkunde als PDF hochgeladen und auf Erbengemeinschaft (mein Bruder und ich) umgemeldet. War damals in den 50gern noch von meinem Opa. Der hatte damals noch 2 Stück Vieh, 2 Schweine und Ackerland, was in ländlichen Gegenden oft üblich war. In den 60ern kam das Vieh weg und in den den 70ern, als die Autobahn kam und die Äcker an den Staat gingen, war ja auch das Land weg. Bloß haben sich unsere Eltern nie darum gekümmert und die ca. 90 € jedes Jahr fleißig an die BG gezahlt. Man kommt zwar nicht mehr aus der BG heraus (außer Tod), ich kann aber Freistellung der Zahlung beantragen, da das Grundstück schon seit 50 Jahren Rasen ist und auch weniger als 2,5 Hektar groß ist.
Heinz B. schrieb: > 90 € jedes Jahr fleißig an die BG gezahlt. Na toll - kann man das nicht zurückholen? 30 Jahre lang mit Zinsen sind etliche Tausende. Klar, die rühren sich von selber nicht. Ich hatte auch Eltern mit Bauenhof in Schwabach. Nach deren Ableben haben wir rausbekommen, daß die seit 30 Jahren etliche Äcker verpachtet haben. Die Nutzer haben nichts bezahlt, weil es vergessen wurde einzutreiben. Einer hat sogar Besitzansprüche angemeldet werden "Ersitzens" und hat es verkauft. War ein Akt, das zurückzuholen.
Andi F. schrieb: > Na toll - kann man das nicht zurückholen? Nein, gezahlte Beiträge erstatten die nicht zurück. Steht auch dort so. Sogar der letzte Beitrag, den wir letzten Monat gezahlt hatten, ist futsch. Bis vor zwei Jahren, als unsere Mutter starb, hat die immer gezahlt. Andi F. schrieb: > daß die seit 30 Jahren etliche Äcker verpachtet > haben. Da müßten normalerweise die Pächter von der BG angeschrieben worden sein, wenn die es vergessen haben. Die Pächter müssen das ja bezahlen.
Beitrag #7512503 wurde von einem Moderator gelöscht.
Musik og F. schrieb: > Wichtiger ist: > Bau dir deinen eigenen Schalgwortkatalog. Im 21. Jahrhundert? Ernsthaft? Der einzige tiefere Sinn einer elektronische Dokumentenaufbewahrung ist doch die Suchfunktion. Sonst kann man das auch gleich lassen. Oliver
anstatt dateien in immer mehr ordner zu schaufeln, versuche ich ein sinnvolles anfangswort in den dateinamen zu schreiben. anstatt 1 schreibt man 01 oder 000001, und nicht 11.10.2023 sondern 2023.10.11 ja aber das wird wohl bekannt sein. gibt es noch mehr anleitungen dazu ? die oben verlinkte bibliotheken-anleitung (beschlagwortung) fand ich gruselig.
:
Bearbeitet durch User
Ich verwende dafür n Programm namens PDFScanner, das führt auch ne OCR durch. Ich mach das hauptsächlich für Rechnungsbelege. Im Anschluss lass ich PDF2TXT drüber laufen und lass das TXT in ne SQL-Datenbank kopieren. Das PDF wird dann in n Archivordner abgelegt. Das ganze hab ich per Batch automatisiert. Letztlich wird dann mit den Daten vom Onlinebanking abgeglichen und ne HTML erzeugt wo dann für jede Zahlung die entsprechende zugehörige Rechnung verlinkt ist. Klingt kompliziert letztlich ist aber jeder Schritt ab Scan ne Zeile im Script, das in Windeseile durchläuft. Auch die Suche nach bestimmten PDF-Inhalten (aus dem TXT) geht in der SQL wieselflink
Heinz B. schrieb: > Da müßten normalerweise die Pächter von der BG angeschrieben > worden sein, wenn die es vergessen haben. Die Pächter müssen > das ja bezahlen. Hab Flächen in Pacht, bei Acker sind die Laufzeiten normalerweise kurz, wenige Jahre, bei Dauerkulturen mitunter bis 30 Jahre. Wenn sich der Verpächter nicht rührt überweise ich die Pacht zu Martini auf das abgemachte Konto, selbst ob das nun Erbengemeinschaft ist bekomm ich von keinem Amt oder Versicherung oder Nachlassgericht oder sonstwem nicht mitgeteilt. Wenn der Pachtvertrag zum Laufzeitende nicht gekündigt wird verlängert der sich automatisch um 1 Jahr zu den vertraglichen Konditionen. Das einer n Grundstück verkauft das nicht ihm gehört halte ich für nahezu ausgeschlossen, da das nur über Notar und Amtsgericht (Grundbuch) geht, alles andere ist sowieso nichtig.
Carypt C. schrieb: > schreibt man 01 oder 000001, und nicht 11.10.2023 sondern 2023.10.11 also wenn schon Datum, dann ISO8601: 2023-10-11 ;-) ciao Marci
:
Bearbeitet durch User
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.