Stand heute, 2018, ist meine Bank nicht in der Lage mir die Buchungen der letzten 7 Jahre auf elektronischem Wege zukommen zu lassen. Die Bank wird jetzt gewechselt, aber damit bin ich ja noch nicjt weiter. Kontoauszüge habe ich natürlich. Gibt es eine Software, die mir diese einliste und als csv Datei wieder ausspuckt? Sorry, bin etwas genervt von diese "Zukunft".
Hm, also ich lasse mir seit mindestens 10 Jahren von verschiedenen Banken die Kontoauszüge via Email zukommen. Mit dem Wechsel der Bank (welche ist das eigentlich?) sollte das Problem erledigt sein. Ansonsten gibt es jede Menge ORC Software für alle möglichen BS. Such Dir eine aus.
:
Bearbeitet durch User
Andreas B. schrieb: > ORC Software OCR meinst du. Ich hab schon lange nichts mehr in dieser Richtung gemacht. Damals war "Abbyy FineReader" sehr zuverlässig bei der Erkennung. So weit ich weiß, existiert sie immer noch und wird weiterentwickelt.
GImageReader gibt es für z.B. Linux und Windows. Es benutzt Tesseract 3.0.5 als OCR Software. https://github.com/manisandro/gImageReader/releases
Dirk schrieb: > GImageReader Ich habe mir seit vielen Jahren mal wieder eine OCR Anwendung angesehen und muss sagen, dass Ergebnis ist immer noch ernüchternd. Schon bei einem einfachen Text wie im Anhang. Meine finanzielles Zukunft würde ich nicht davon abhängig machen ;)
Andreas B. schrieb: > Ansonsten gibt es jede Menge ORC Software für alle möglichen BS. Such > Dir eine aus. Zuverlässiger ist es, nicht eine davon auszusuchen, sondern mehrere parallel auf den Text loszulassen und bei Unstimmigkeiten Brain 1.0 hinzu zu ziehen.
Eher die finanzielle Vergangenheit. Was man 7 Jahre nicht gebraucht hat, braucht man sicher jetzt auch nicht mehr. Zur Not machen es die Auszüge. Kolja L. schrieb: > Sorry, bin etwas genervt von diese "Zukunft". In der Vergangenheit ging das ja noch viel schlechter. Wenn man online auf dem Konto ist, geht das nicht? Mindestens im Banking-Programm kann ich alles auf den Drucker oder in ein PDF schieben. Bei mir ist die Zukunft schon da!
pegel schrieb: > Dirk schrieb: >> GImageReader > > Ich habe mir seit vielen Jahren mal wieder eine OCR Anwendung angesehen > und muss sagen, dass Ergebnis ist immer noch ernüchternd. > > Schon bei einem einfachen Text wie im Anhang. > > Meine finanzielles Zukunft würde ich nicht davon abhängig machen ;) Na ja, so schlecht ist das nicht. Ohne Bearbeitung Tesseract draulosgelassen: Wie, in drei Teufels Namen, kfinnle ein Mensch es genießen, um 6:30 Uhr von einem Wecker aus dem Schlai gerissen zu werden, aus dem Befl zu springen, sich anzuziehen, Essen reinznwürgen, sich die Zähne zu putzen, zu kacken, zu pissen, sieh die Haare zu richten und sich durch ein Verkehrschaos hin. durch zu einem Ort zu kämpfene wo er eine Menge Zasler für einen anderen macht — und dann auch noch dankbar iür die Gelegenheit zu sein, eben '" dies tun zu dürien? Charles Bukowski US Schriftsteller-Rebell
Das sind 11 Fehler, wenn ich mich nicht verzählt habe. Für die handvoll Zeilen. Ob das nun gut oder schlecht ist, ist Ansichtssache...
Ich kenne das Problem: Ich habe vor einiger Zeit einen Ordner mit Kontoauszügen aus einem Automatendrucker eingescannt und in Text umgewandelt. Ich habe dazu ABBYY FineReader Corporate benutzt, weil ich das Programm ohnehin besitze. Ich habe nicht viel Aufwand reingesteckt, die Ergebnisse sind deshalb nur la-la, für meine Zwecke hat es aber ausgereicht. Grundsätzliches Problem: Das Schriftbild auf den Auszügen ist zum Teil sehr schlecht (schwaches Farbband beim Nadeldrucker, als es noch welche gab, zum Teil sind die Zeichen ausgefranst etc.). Die Schrift geht manchmal über den Rand des Papiers hinaus und ist abgeschnitten. Die Position der Spalten schwankt beträchtlich. Fehlerrate: Die Fehlerrate für einzelne Zeichen war bei mir relativ hoch, gefühlt 5%. Ich habe alle Euro-Positionen einzeln kontrolliert und wo nötig korrigiert. Das war in Summe ziemlich viel Arbeit. Den Text der Positionen habe ich nicht korrigiert. Abspeichern als CSV-Liste: Dafür müsste die "Tabelle" auf dem Kontoauszug erkannt werden. Das ist aber nicht trivial, weil es (zumindest bei mir) keine Trennlinien zwischen den Zellen gibt. Grundsätzlich kann man in FineReader sog. Bereichsvorlagen erstellen, wodurch man der Software Hinweise gibt, was an welcher Stelle zu erwarten ist (Fließtext, Bild, Tabelle, etc.). Ohne eine solche Bereichsvorlage habe ich für Kontoauszüge keine brauchbaren Ergebnisse erhalten (erkannt wurde mal nur Fließtext, mal nur eine Tabelle, mal beides gemischt). Ich habe stattdessen dann eine Fließtextvorlage für die ganze Seite eingerichtet, damit wird zumindest alles als Text erfasst. Man könnte FineReader anweisen, eine Tabelle zu finden. Das habe ich aber nicht gemacht. Bei Aufwand vs. Nutzen habe ich an dieser Stelle aufgehört, weil es meine Zwecke erfüllt hat.
:
Bearbeitet durch User
Peter H. schrieb: > die > Ergebnisse sind deshalb nur la-la 1A = sehr gut? Das ist das Problem bei Texterkennung.
Warum im Textformat ? Wozu ? Ist doch alles Geschichte. Ich würde scannen und als PDF weg damit. Dateiname kann ja z.B. 03_03_2012 sein. Dann kann man doch ganz gut suchen.
@bitverdreher interessant. Bei mit kommt etwas anderes raus. Aber die meisten Probleme scheint das kleine f zu machen: Me, In drei Teufels Namen, künnle ein Mensch es genießen, um 6:30 Uhr von einem Wecker aus dern Schlal gerissen zu werden, aus dem Bell zu springen, sich anzuziehen, Essen reinzuwürgen, sich die Zähne zu pulzen, zu kacken‚ zu pissen, sich die Haare zu richten und sich durch ein Verkehrschaos hin- durch zu einem [in zu kämpfen, wo er eine Menge Zasler für einen anderen machl — und dann auch noch dankbar lür die Gelegenheit zu sein, eben ’ ' " " dies tun zu dürlen? 51%„ an.“ ‚_\ \ . r-a Charles Bukowskl _ USSchriflsleller-Rebell
Pegel schrieb: >Ich habe mir seit vielen Jahren mal wieder eine OCR Anwendung angesehen >und muss sagen, dass Ergebnis ist immer noch ernüchternd. >Schon bei einem einfachen Text wie im Anhang. >Meine finanzielles Zukunft würde ich nicht davon abhängig machen ;) Ich muss sagen die Ergebnisse ohne weitere Optimierungen von Tesseract 4.0 mit LSTM sind sehr gut.
1 | Wie, in drei Teufels Namen, |
2 | könnte ein Mensch es genießen, um 6:30 Uhr von |
3 | einem Wecker aus dem Schlaf gerissen zu |
4 | werden, aus dem Bett zu springen, sich |
5 | anzuziehen, Essen reinzuwürgen, sich die Zähne |
6 | zu putzen, zu kacken, zu pissen, sich die Haare zu |
7 | richten und sich durch ein Verkehrschaos hin— |
8 | durch zu einem Ort zu kämpfen, wo er eine Menge |
9 | Zaster für einen anderen macht — und dann auch |
10 | noch dankbar für die Gelegenheit zu sein, eben |
11 | |
12 | 77 ” | dies tun zu dürfen? |
13 | |bu |
14 | "“4' AV 4
|
15 | z=) Charles Bukowski
|
16 | „ _ US Schriftsteller—Rebell
|
Hätte ich jetzt die Suchbereiche noch richtig definiert wäre das Ergebniss noch besser. Bei Kontoauszügen lassen sich die Optimierungen verbessern z.B. gewisse Suchbereiche nur Zahlen zulassen. Für extrem wichtige Dinge wo es auf Schnelligkeit nicht ankommt würde ich drei verschiedene OCRs laufen lassen, aber auch alle drei müssen dann optimiert werden bzgl. Font, Sprache, Wörterbücher etc.
Kolja L. schrieb: > Kontoauszüge habe ich natürlich. > Gibt es eine Software, die mir diese einliste und als csv Datei wieder > ausspuckt? Amazon Mechanical Turk! Oder die Kontoauszüge halt als Bild speichern, Speicherplatz kostet ja "nichts"
Wolfgang schrieb: > Andreas B. schrieb: >> Ansonsten gibt es jede Menge ORC Software für alle möglichen BS. Such >> Dir eine aus. > > Zuverlässiger ist es, nicht eine davon auszusuchen, sondern mehrere > parallel auf den Text loszulassen und bei Unstimmigkeiten Brain 1.0 > hinzu zu ziehen. Lange nichts mehr benutzt aber viele kann bzw. muß man auch 'anlernen'. Hier hat das einer für tesseract gemacht um Ausweise zu lesen. Wird sich auch auf das spez. Druckbild von Kontoauszügen anwenden lassen. http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/ Andere komerzielle Prgs haben sowas wohl teils auch integriert, weis aber nicht was es heute alles gibt.
Walter T. schrieb: > Peter H. schrieb: >> die >> Ergebnisse sind deshalb nur la-la > > 1A = sehr gut? > > Das ist das Problem bei Texterkennung. nicht 1a, sondern la-la. So wie in solala :-)
michael_ schrieb: > Wenn man online auf dem Konto ist, geht das nicht? > > Mindestens im Banking-Programm kann ich alles auf den Drucker oder in > ein PDF schieben. > Bei mir ist die Zukunft schon da! Nein, deswegen rief ich dort an. Als man mir sagte, das es wirklich keine Möglichkeit gäbe, beschloss ich die Bank zu wechseln. Stephan schrieb: > Warum im Textformat ? Ich will die letzten Jahre bilanzieren
Matthias L. schrieb: > Das sind 11 Fehler, wenn ich mich nicht verzählt habe. Für die handvoll > Zeilen. Ob das nun gut oder schlecht ist, ist Ansichtssache... Das ist nun auch eine hundsmiserable Vorlage.
Kolja L. schrieb: > Stephan schrieb: >> Warum im Textformat ? > > Ich will die letzten Jahre bilanzieren Na ich will lieber nicht wissen wo die Kohle gblieben ist.
Ich nutze seit 5 Jahren einen Einzugsscanner für diese Aufgabe. Das Gerät ist kompakt, sauschnell und scannt direkt duplex. Was nach dem scannen mit den Dokumenten passieren soll kann man per Software entscheiden. Ich bin vor 5 Jahren auf das papierlose Büro umgestiegen. Ich habe alles eingescannt was nicht aus irgendeinem Grund im Original vorhanden sein muss. Meine Versicherung erkennt eingescannte Rechnungen an wenn ich sie als Datei (PDF) vorlegen würde. https://www.amazon.de/Fujitsu-PA03656-B301-Scanner-IX500ScanSnap-Ix500/dp/B01GJ9DJS0/ref=sr_1_2?ie=UTF8&qid=1523015394&sr=8-2&keywords=Scansnap Ja, das Teil ist nicht preiswert. Trotzdem würde ich dieses Gerät wieder kaufen. PS: Von meiner Bank kann ich die Kontoauszüge schon seit Jahren online abrufen;-) Stephan schrieb: > Dateiname kann ja z.B. 03_03_2012 sein. > Dann kann man doch ganz gut suchen. Bei mir bekommen z.B. Rechnungen auch den Firmennamen in den Dateinamen.
:
Bearbeitet durch User
pegel schrieb: > Für einen Menschen nicht. ;) Doch, auch für einen Menschen. Der Matsch hinter den Schriftzeichen erschwert auch Menschen das Lesen. Natürlich können Menschen mit auch nur ansatzweise normaler Sehfähigkeit das ausgleichen, aber Matsch ist Matsch, und Text liest sich mit steigendem Kontrast Vorder- zu Hintergrund besser.
Die Nebendiskussion über den Bukowski-Scan ist zugegebenerweise OT... Natürlich ist die Vorlage nicht optimal, aber wenn ich solche Ergebnisse mit den Jubelankündigungen zur Deckung zu bringen versuche, nach denen die KI in Kürze alles mögliche und unmögliche viiiiel besser als ein Mensch können soll, dann werde ich immer arg skeptisch. Ich meine, OCR gibt's ja nun schon seit vielen Jahren, die Ergebnisse sind aktuell auch deutlich besser als vor Jahren, aber die Rechenleistung ist demgegenüber überproportional gestiegen... Ich habe auch mal versucht, meine älteren Kontoauszüge einzuscannen - da hatte leider jede zweite Zeile ein Punktraster untergelegt. Keine Chance, das halbwegs anständig durch die Texterkennung zu bringen, abtippen wäre schneller gewesen. Ich hab's aufgegeben und lieber die Daten aus dem Banking-Programm exportiert.
<off-topic> Dirk schrieb: > Ich muss sagen die Ergebnisse ohne weitere Optimierungen von Tesseract 4.0 Ja, die 4.0 macht echt Hoffnung. Alles, was davor ist, hat mich aber schwer enttäuscht bzw. an die 1990er erinnert. (Verglichen mit einer kommerziellen Lösung, die bei meinem Scanner dabei war.) </off-topic>
Ich frage mich gerade nach dem Nutzen der alten Daten. Meine Papierauszüge sind in Ordnern gelandet, wo sie nie wieder angeschaut und nach 10 Jahren entnommen und dem Häcksler zugeführt wurden. Seit der Umstellung auf PDF ist die Papiermenge im Ordner rückläufig, irgendwann wird sie 0 erreichen. Die PDFs sind nach Jahren im Ordner abgelegt, da braucht man am Jahresanfang nur noch den Ordner zu löschen. Genau genommen [i]interessiert[/i] mich nicht mal ansatzweise, was auf den alten Auszügen steht, die snid eigentlich nur noch da, [i]falls man sie mal braucht[/i]. Von dem wirklichen Rückschau-Zeitraum habe ich im Grunde nie mehr als das Vorjahr gebraucht, meistens bei der Steuererklärung...
pegel schrieb: > Dirk schrieb: >> GImageReader > > Schon bei einem einfachen Text wie im Anhang. Ich stehe an einem aehnlichen Punkt, siehe Threads Beitrag "gImageReader und Tesseract-OCR" und https://www.mikrocontroller.net/topic/goto_post/5299006 Vorlaeufiges Fazit: 1. egal wie gute Ergebnisse man mit gImageReader hinbekommt, es ist nicht trivial davon die Parameter fuer manuelles betreiben von Tesseract abzuleiten (fuer das Ziel, eine NICHT-maus-manuelle sonder Script-automatische massgeschneiderte Lösung hinzubekommen. Ja: Bankauszuege zieht man sich im Monatsrythmus! --> (Teil-)Automation IST fuer mich ZWINGEND.) 2. eine simple Versuchsreihe zeigt dass an die zu OCR'nde Vorlage gewisse Mindestanforderungen zu stellen sind um erfolgreiche OCR-Ergebnisse zu erhalten. (das angehaengte Beispielbild erfuellt diese nur ungenuegend) Siehe auch: Rufus Τ. F. schrieb: > pegel schrieb: >> Für einen Menschen nicht. ;) > > Doch, auch für einen Menschen. Der Matsch hinter den Schriftzeichen > erschwert auch Menschen das Lesen. #---#---# Insbesondere bei Administrativer Textinformation wie Kontoauszuege ist es ja von vorherein klar DASS eine nicht zu vernachlaessigende Wahrscheinlichkeit besteht, diese Zahlenkolonnen weiterverwenden zu wollen. (die Geldinstitute empfehlen einem ja geradezu Kontoauszüge genau zu kontrollieren, warum nicht mit etwas Technikunterstützung?) Also sollte es doch ausgerechnet den Geldinstitute -welche ja gezwungenermassen AUCH IT-Profis sind- spontan in den Sinn kommen die Zahlenkolonnen als z.B. CSV-Datei in diese PDFs einzubetten. Schliesslich IST Dateien einzubetten ein Feature von PDF! Fuer die (legale) Verbindlichkeit koennen die Geldinstitute sich ja meintewegen ausschliesslich auf das Gedruckte berufen. Aber zwecks "unverbindliche", inhaltliche Weiterverarbeitung der Kontoauzuege würde eine ins PDF eigebettete CSV-Datei der Zweck optimal erfuellen. Wie so oft: simple technische Wege gibt es; sie wollen aber nicht genutzt werden :-(
Nachdenklicher schrieb: > Genau genommen [i]interessiert[/i] mich nicht mal ansatzweise, was auf > den alten Auszügen steht, die snid eigentlich nur noch da, [i]falls man > sie mal braucht[/i]. Die Geldinstitutel lieben es wenn denen auf's Wort geglaubt wird. Insbesondere in einenm unerwarteten und rein zufälligen Zwischenfall... > Von dem wirklichen Rückschau-Zeitraum habe ich im Grunde nie mehr als > das Vorjahr gebraucht, meistens bei der Steuererklärung... [i]interessierts[/i] Dich nun dafür oder doch nicht? Resp. hast Du nun doch Bedarf fuer Bankunterlagen? Bitte entscheide Dich...
Gut dass ich nur noch wenige Haare auf dem Kopf habe... Hier wird ja, rund um die OCR, vieles an den Haaren herbeigezogen. Ja, es stimmt, dass die Erkennung, wenn das Blatt zum 11. mal Kopiert wurde, mangelhaft ist. Ja, es stimmt, wenn das Blatt erst mal 8 Tage, gefaltet, in der Hosentasche herum getragen wurde, die Fehlerhäufigkeit zunimmt. Ja es stimmt, dass nicht mehr viel rüberkommt, wenn das Blatt erst mal ein Schlammbad genommen hat. Ja es stimmt, dass 50 DPI oft nicht ausreichen... Hier wird aber über normale Kontoauszüge gesprochen die mit einem normalen Scanner gelesen werden sollen. Wenn man die halbwegs gerade einzieht - am besten mit Anschlag - sollten die Zahlen zu 100% rüberkommen. Übrigens: Wenn man schon Kontoauszüge einscannt sollte man auch irgendwo eine Zahlenanzeige haben. Bei meiner Bank steht auf dem letzten Blatt der Endstand. Da das aber das Wichtigste bei der Kontoauszieherei ist, wird wohl jeder hierauf einen Blick haben. Steht dann später statt "100€ für die Luzerner Bank" "100€ für die Luzemer Bank" im Scann, so sollte man der nachgeschalteten Rechtschreibprüfung mal auf die Sprünge helfen. Nach meiner Erfahrung gibt es immer noch ein paar, prinzipiell bedingte Stolpersteine.
:
Bearbeitet durch User
Rufus Τ. F. schrieb:
Hey Rufus, wo hast Du Thread #448998 hinweggezaubert?
Auch in jenem ging es um Auszüge aus PDFs und weiterverwendung!
Den Thread gibt es noch, wenn man nach OCR sucht: Beitrag "Knacknuss Text aus PDF extrahieren" und dann noch Beitrag "spezielles OCR für Kontoauszüge?" Beitrag "Python OCR - (Gas/Strom)Zählerstand ablesen" Beitrag "gImageReader und Tesseract-OCR" https://diging.atlassian.net/wiki/spaces/DCH/pages/5275668/Tutorial+Text+Extraction+and+OCR+with+Tesseract+and+ImageMagick https://www.heise.de/ct/artikel/Toolbox-Texterkennung-mit-Tesseract-OCR-1674881.html Dann muss man allerdings den Rohtext parsen, das wird aufwändiger.
Ich benutze seit einigen Jahren die kostenlose Version von Bitfarm-Archiv zusammen mit einem Dokumentenscanner und habe viele Kontoauszüge gescannt. Das Ergebnis ist enttäuschend, was auch daran liegt, dass das kleine Blattformat schlecht scannbar ist und auch lasergedruckte Auszüge einen beschissenen Font benutzen. Für eine reine Archivierung und die gelegentliche Suche reicht es bei meinen Ansprüchen allerdings aus. Aktuelle Kontoauszüge als PDF "drucke" ich in das Archiv, da ist der Volltext zwar immer noch unstrukturiert, aber eine Schlagwortsuche funktioniert gut. Mehr brauche ich nicht.
Sergej schrieb: > Aktuelle Kontoauszüge als PDF "drucke" ich in das > Archiv, da ist der Volltext zwar immer noch unstrukturiert, aber eine > Schlagwortsuche funktioniert gut. Mehr brauche ich nicht. Viele Banken erlauben den Export nach CAMT/CSV/CT940. Damit kannst dir dir den unsauber formatierten Mist schenken und kannst alles sauber nachvollziehen. ;)
Mir reicht der Status Quo für die handvoll Suchen im Jahr aus. Mein Einkommen erfordert keine Finanzverwaltung.
Egon N. schrieb: > Viele Banken erlauben den Export nach CAMT/CSV/CT940. Damit kannst dir > dir den unsauber formatierten Mist schenken und kannst alles sauber > nachvollziehen. ;) Aber eben nicht rückwirkend für die letzten Jahre. Zur Erklärung, warum: Es ist ein Vereinskonto und wir haben erst vor kurzem die Finanzhoheit darüber übernommen. Jetzt würden wir gerne die bisherigen Tabellen auf Zetteln gegen ein einfacher zu wartendes System tauschen. Die bisherigen Transaktionen möchten wir gerne überprüfen unm sicherzustellen, das der aktuelle Kontostand richtig ist. Es sind ca 1000 Transaktionen die zugeordnet werden müssen. Das sind einige Stunden Handarbeit, aber wohl erfolgsversprechender als eine OCR, wenn ich das hier so alles lese. Danke trotzdem für die Antworten.
bastel_ schrieb: > Den Thread gibt es noch, wenn man nach OCR sucht: ...bloss den mit #448998 taucht in deiner Auflistung nicht auf: https://www.mikrocontroller.net/topic/448998 Zeigt ins "Moderatorenarchiv"
> Wenn man online auf dem Konto ist, geht das nicht? > > Mindestens im Banking-Programm kann ich alles auf den Drucker oder in > ein PDF schieben. > Bei mir ist die Zukunft schon da! Bis 7J in die Vergangenheit wie's der TE benötigt? > Es sind ca 1000 Transaktionen die zugeordnet werden müssen. > Das sind einige Stunden Handarbeit, aber wohl erfolgsversprechender als eine OCR, > wenn ich das hier so alles lese. Wenn das <100 (A4?) Blatt sind UND homogen in ein paar wenigen Darstellungsstyle (inkl. Schriftarten) würde ich doch gImageReader eine Chance geben. Ok, der Scanner soll schon funktionsfähig eingerichtet sein und etwas besser als "Fax-Auflösung" hermachen. Dann noch
1 | $ sudo apt install gImagereader |
- (pro Darstellungsstyl) ein wenig Einarbeitung im Sinne von Einstellungen probieren bis es optimal geht muss auch sein: den Blätterhaufen hinwerfen und Befehl "Friss!" rufen ist halt schon nicht. gImageReader bedient den Scanner direkt und kümmert sich Tesseract im Hintergrund zu orchestrieren.
Matthias L. schrieb: > Ich habe auch mal versucht, meine älteren Kontoauszüge einzuscannen - da > hatte leider jede zweite Zeile ein Punktraster untergelegt. Keine > Chance, das halbwegs anständig durch die Texterkennung zu bringen, > abtippen wäre schneller gewesen. Ich hab's aufgegeben und lieber die > Daten aus dem Banking-Programm exportiert. Ich habe gerade neulich mehrere Jahrgänge alter Sparkassen-Auszüge eingescannt und durch eine OCR laufen lassen. Die Auszüge waren auch zeilenweise unterschiedlich, allerdings zum Glück kein gedrucktes Raster, sondern eine vor dem eigentlichen Druck aufgebrachte Rosa-Färbung, was das Problem natürlich im Vergleich zu deinem sehr entschärft haben dürfte. Die OCR war eine uralte Version von Abbyy FineReader und die Aufgabe, die ich ihr gestellt hatte, war, eine Excel-Datei pro Scan zu erzeugen. Die einzigen Vorgaben waren: deutsche Zahlenformate und Uppercase-Texte zu erwarten und eine Monospace-Schriftart. Die Ergebnisse: 1) Das Layout jedes Scans wurde in den wesentlichen Teilen vollkommen korrekt erkannt, sogar Fehler des Drucks (nämlich teilweise bis zu 10% der Zeilenhöhe Versatz zwischen der vorgedruckten rosa Hintergrundfarbe und den tatsächlichen Zeilen des Kontrodrucks) wurden immer vollständig kompensiert. 2) Jede Zahl der Buchungsbeträge, Überträge und Saldi wurde korrekt erkannt. Das glaube ich zumindest behaupten zu können, weil ich hinterher ein VBA-Script drauf losgelassen habe, was die Rechnungen nachvollzieht und ich das Endergebnis dieses Scripts mit dem letzten Auszug verglichen habe. 3) Etliche Ausrutscher gab es bei den Buchungstexten, leider auch bei wichtigen Zahlen wie Rechnungs"nummern" u.ä. Hier neigte Abbyy vor allem dazu, aus Großbuchstaben in diesen "Nummern" Ziffern zu machen, besonders natürlich 'B'->'8' und 'O'->'0'. Ein Verhalten, was man durchaus verstehen kann. Die Zeichenfehlerquote bei den Buchungstexten insgesamt lag jedenfalls bei geschätzen 2%. 4) Auf dem Formular enthaltene (also eigentlich völlig unwichtige) vorgedruckte Texte (natürlich im Rosa der vorgedruckten Zeilen) in einer nicht Monospace-Schriftart ähnlich "Arial" wurden sehr unterschiedlich interpretiert. Meist wurde das gesamte Feld des virtuellen Tabellenlayouts von Abbyy als Bild interpretiert. Das war dann OK. Es gab aber auch etliche Fälle, wo Abbyy hier scheinbar eine Art Sub-Layout angenommen hat und eine Subtabelle mit einer hübsche Mischung aus Bildern und Texten dafür geliefert hat. Für mich war das nur insofern wichtig, als dass das in in der Gesamttabelle des jeweiligen Scans für einen positiven Zeilenversatz des eigentlichen Dokument-Inhaltes gegenüber dem Normalfall gesorgt hat. Das zu detektieren und zu korrigieren mußte ich meinem oben erwähnten Prüfscript erst noch beibiegen, bevor dessen Ergebnis wirklich korrekt war. Für einen menschlichen Betrachter wäre es aber unwichtig, denn das sichtbare Excel-Dokument sieht auch in diesen Fällen nahezu genau so aus wie die Vorlage. Was allerdings gerade meine Fehlersuche schwierig gemacht hat, weil ich nach einem Fehler in meinem Script gesucht habe, statt mir die tatsächlichen Tabellenstrukturen anzusehen... Naja, irgendwann bin ja dann ja doch noch dahinter gekommen, wo das eigentliche Problem ist... Also insgesamt muß man wohl sagen: Abbyy hat seinen Job getan. Besser geht es kaum. Ich möchte behaupten: Das Ergebnis ist weitaus besser, als irgendein Mensch die Digitalisierung hinbekommen hätte. Null Fehler bei den wirklich relevanten Daten bereits beim ersten Versuch, das ist von einem Menschen nicht mal näherungsweise erwartbar.
Stephan schrieb: > Warum im Textformat ? Wozu ? Ist doch alles Geschichte. Ich würde > scannen und als PDF weg damit. Dateiname kann ja z.B. 03_03_2012 sein. > Dann kann man doch ganz gut suchen. Wenn Du das einscannst und als PDF speicherst, enthält das PDF nur die gescannte Grafik. Bis auf den Dateinamen suchst Du da nicht viel. ;-)
Kolja L. schrieb: > Es ist ein Vereinskonto und wir haben erst vor kurzem die Finanzhoheit > darüber übernommen. Na dann schreib das doch der Bank. Kostet sicherlich ein paar Euro, aber wieso da stundenlang rumfriemeln wenn es auch einfach geht? Bis 3 Jahre in die Vergangenheit kann man z.B. bei der Sparkasse problemlos abfragen, allerdings wenn ich mich nicht täusche immer nur grob ein Jahr. Die haben da wohl bescheuerte Beschränkungen...
Dirk schrieb: > Ich muss sagen die Ergebnisse ohne weitere Optimierungen von Tesseract > 4.0 mit LSTM sind sehr gut. > >
1 | > Wie, in drei Teufels Namen, |
2 | > könnte ein Mensch es genießen, um 6:30 Uhr von |
3 | > [...] |
4 | >
|
Wow, nicht schlecht. Insbesondere dann, wenn man bedenkt, wie schlecht die Grafik eigentlich ist: geringe Auflösung, Kompressionsartefakte, usw.
Egon N. schrieb: > Kolja L. schrieb: >> Es ist ein Vereinskonto und wir haben erst vor kurzem die Finanzhoheit >> darüber übernommen. > > Na dann schreib das doch der Bank. > > Kostet sicherlich ein paar Euro, aber wieso da stundenlang rumfriemeln > wenn es auch einfach geht? Bis 3 Jahre in die Vergangenheit kann man > z.B. bei der Sparkasse problemlos abfragen, allerdings wenn ich mich > nicht täusche immer nur grob ein Jahr. Die haben da wohl bescheuerte > Beschränkungen... Das ist doch der einfachste Weg. Schön, dass die Salamischeiben kommen. Ein Vereinskonto, und kein Bankingprogramm, ich glaube es einfach nicht. Kuhzunftsochse schrieb: >> Wenn man online auf dem Konto ist, geht das nicht? >> >> Mindestens im Banking-Programm kann ich alles auf den Drucker oder in >> ein PDF schieben. >> Bei mir ist die Zukunft schon da! > > Bis 7J in die Vergangenheit wie's der TE benötigt? Ich habe gerade nachgesehen. Vor einem Jahr, 2017 habe ich das Bankingprogramm gewechselt. Bei der Übernahme der Daten habe ich zwei Jahre vorher angegeben. Also 03/2015. Das vorherige Banking-Programm kann ich auch noch bis 2007 einsehen. Und das vor-vorige funktioniert sicher auch noch. Ich komme da sicher bis 1995 zurück. Brauche ich aber sicher nicht. Auszüge hole ich auch ab. Aber nach zwei Jahren wird Wärme und Feinstaub draus. Also mach Nägel mit Köpfen! Als Verein kommt man um ein Banking-Programm nicht herum. "Alf" ist preiswert und reicht völlig. Dazu noch HBCI. Wie wurde es denn bisher verwaltet? Mit Papp-Karteikarten?
Bemerkung zu dem Thema, leicht OT: Ich habe vor einiger Zeit in ca. zwei Wochen mühsamer Programmierbarbeit eine HBCI-Schnittstelle für unser in der Firma verwendetes ERP-System geschrieben, eingebaut und getestet. Rein technisch war das Abholen von Kontoständen und Bankvorfällen kein großes Problem. Was uns nach kürzester Zeit aber wieder davon abgebracht hat, die Finanzdaten ungesehen automatisch zu importieren um z.B. Rechnungen als Bezahlt zu markieren, war die unglaubliche Blödheit der Kunden. Ich weiss, das klingt respektlos, aber bezüglich der Daten ist das die reine Wahrheit. Was kommen da für Sachen vor: - Rechnungsnummer bzw Zahlungsgrund fehlt oder ist falsch - Beträge entsprechen nicht den Rechnungen, weil Rechnungen zusammengefasst werden, aber die Info im Zahlungsgrund fehlt - Beträge werde überwiesen, die zu keiner denkbaren Kombination offener Rechnung passen - usw. Geschätzte 30% aller Rechnungseingänge sind formal halbwegs sauber, der Rest muss mühseligst zusammengesucht oder durch telefonische Nachfrage geklärt werden. Grauenhaft.
Frank E. schrieb: > Bemerkung zu dem Thema, leicht OT: : > war die unglaubliche Blödheit der Kunden. : > Geschätzte 30% aller Rechnungseingänge sind formal halbwegs sauber, der > Rest muss mühseligst zusammengesucht oder durch telefonische Nachfrage > geklärt werden. Grauenhaft. Ich bin da voll bei deiner Einschätzung. Der Grund für diese Situation liegt m.M.n. jedoch bei der Bank(enbranche). Warum haben die es nicht geschafft, trotz jahrzehntelanger Erfahrung, ein unmissverständliches, einfaches, vollständiges, einheitliches, internationales, institutsunabhängiges Eingabesystem zu etablieren? Mir schwebt vor, dass die Eingabe einer Zahlungsanweisung durch die Eingabe eines einzigen Strings erfolgen müsste. In diesem String wären dann alle für den Zahlungempfänger nötigen Informationen eincodiert (Rechnungsnummer, Zahlungsgrund, Betrag, Zielkonto, Fälligkeitsdatum, Kundennummer & Prüfsumme ü.A.). Ob nur aus Ziffern oder der Kompaktheit wegen Hexziffern oder gar [0-9A-Z] oder [0-9A-Za-z] ist egal; allenfalls in Fünfergruppen oder sonstwie. Einfach nicht über mehrere, gar optionale, Eingabefelder verteilt wie jetzt. Das absurde: ich habe bisher noch kein Bankmitarbeiter getroffen, der mir erklärten konnte wie der Rechnungszahlungsverkehr GENAU IM DETAIL funktioniert und was ich als Dienstleister/Lieferant bei einer/jeder Bank bestellen muss, um (ev. vorgedruckte) Einzahlungsscheine zu bekommen, welche möglichst viel der o.g. Angaben bereits drauf haben. Dies in anbetracht der Tatsache dass unter den mir als Kunde untergekommenen Rechnungseinzahlungsscheine einige dabei sind wo dies zu einem höheren Teilgrad funktioniert als bei anderen (nach Eingabe der Referenznummer muss ich bei einigen zwingend in fast alle Felder etwas eingeben, bei anderen füllen sich fast alle anderen Felder von allein).
Bankkunde mit zu wenig Kundennutzen schrieb: > In diesem String wären > dann alle für den Zahlungempfänger nötigen Informationen eincodiert > (Rechnungsnummer, Zahlungsgrund, Betrag, Zielkonto, Fälligkeitsdatum, > Kundennummer & Prüfsumme ü.A.). Du verlangst, das der Einzahler 7 oder mehr Daten in eine Einheit bringt? Große Firmen scannen die Einzahlung und ordnen sie meist richtig zu. Frag mal dein Mädel, wenn sie Klamotten bezahlt. Da reicht nur eine Nummer. Es ist die Rechnungs- oder Bestellnummer. Reicht völlig.
Achso, Bankkunde mit zu wenig Kundennutzen schrieb: > Das absurde: ich habe bisher noch kein Bankmitarbeiter getroffen, der > mir erklärten konnte wie der Rechnungszahlungsverkehr GENAU IM DETAIL > funktioniert was interessiert eine Bank das? Das geht die gar nichts an.
michael_ schrieb: > Bankkunde mit zu wenig Kundennutzen schrieb: >> In diesem String wären >> dann alle für den Zahlungempfänger nötigen Informationen eincodiert >> (Rechnungsnummer, Zahlungsgrund, Betrag, Zielkonto, Fälligkeitsdatum, >> Kundennummer & Prüfsumme ü.A.). > > Du verlangst, das der Einzahler 7 oder mehr Daten in eine Einheit > bringt? > Große Firmen scannen die Einzahlung und ordnen sie meist richtig zu. Nein, doppelt andersrum: - nicht nur Große Firmen bezahlen Rechnungen: ich als privater kann deren "Scanaufwand" nicht aufbringen. - der Aussteller der Rechnung soll (ggfs. mit Unterstützung seiner Bank) "7 oder mehr Daten" in eine Einheit bringen, damit der Zahlende nur 1 (Bandwurmstring) Eingabe zu tätigen hat. Ich wiederhole: interessanterweise scheint dies zu einem gewissen Grad bereits zu klappen (meine Erfahrung als Zahlender, wenn ich Zahlungsaufträge ab Einzahlungsscheine erfasse), jedoch nicht in allen Fällen. Wenn ich hingegen in der anderen Rolle, als Dienstleister/Lieferant und somit Rechnungssteller bin (ziel der Zahlung ist mein Konto) habe ich nur Einzahlungsscheine welcher alle identisch sind (ausser den Betrag natürlich :-). Kein Banker konnte mir bisher sagen wie ich was bei meiner Bank bestellen/einrichtenlassen muss, damit auch ich wie Große Firmen pro Zahlung individuelle Einzahlungsscheine für meine Kunden ausstellen/beschriften kann (um meinen Kunden die Eingabe zu vereinfachen).
Jörg R. schrieb: > Stephan schrieb: >> Dateiname kann ja z.B. 03_03_2012 sein. >> Dann kann man doch ganz gut suchen. > > Bei mir bekommen z.B. Rechnungen auch den Firmennamen in den Dateinamen. Man könnte als Dateiname auch irgenetwas vernünftiges nehmen, was sich sortieren lässt. Die Beträge auf den Kontoauszügen würde auch kein Mensch in der Form cc_€€€ schreiben. Wenn man das Datum im Dateinamen haben möchte, würde sich wohl eher ein Format nach DIN EN 28601 anbieten, z.B. JJJJ-MM-TT. Dann erübrigt sich das Suchen, weil die Dateien schön in der Reihenfolge nach Datum aufgelistet werden können.
> > was interessiert eine Bank das? > Das geht die gar nichts an. Die Bank(en) wickeln den Zahlungsverkehr zwischen Zahlende und Rechnungsstellende ab. Oder kann ich von Dir Waren/Dienstleistungen beziehen ohne zu bezahlen? ;-) Wenn ich bei Erteilung eines Zahlungsauftrages an meine Bank bei der Eingabe der Referenznummer eine Fantasiezahl eintippe, wird die Eingabe abgelehnt und es kommt keine Zahlung zustande. Wer bestimmt Aufbau/Struktur dieser Referenznummer? Warum kann Bank zwischen gültig und ungültig entscheiden?
Wolfgang schrieb: > Jörg R. schrieb im Beitrag > > Man könnte als Dateiname auch irgenetwas vernünftiges nehmen, Geht es nicht darum, innerhalb eines Monatsauzuges (1 Datei) mit mehreren Bewegungen, nach den einzelnen Bewegungen zu suchen?
Wolfgang schrieb: > Jörg R. schrieb: >> Stephan schrieb: >>> Dateiname kann ja z.B. 03_03_2012 sein. >>> Dann kann man doch ganz gut suchen. >> >> Bei mir bekommen z.B. Rechnungen auch den Firmennamen in den Dateinamen. > > Man könnte als Dateiname auch irgenetwas vernünftiges nehmen, was sich > sortieren lässt. Die Beträge auf den Kontoauszügen würde auch kein > Mensch in der Form cc_€€€ schreiben. > > Wenn man das Datum im Dateinamen haben möchte, würde sich wohl eher ein > Format nach DIN EN 28601 anbieten, z.B. JJJJ-MM-TT. Dann erübrigt sich > das Suchen, weil die Dateien schön in der Reihenfolge nach Datum > aufgelistet werden können. Kontoauszüge bekommen bei mir im Dateinamen das Wort „Kontoauszug“, die Kontonummer (Gehaltskonto, Sparkonto usw.). Dazu die Lfd. Nummer des Kontoauszugs und das Jahr. Die Kontoauszüge sind PDF und damit durchsuchbar.
Bankkunde mit zu wenig Kundennutzen schrieb: > - der Aussteller der Rechnung soll (ggfs. mit Unterstützung seiner Bank) > "7 oder mehr Daten" in eine Einheit bringen, damit der Zahlende nur 1 > (Bandwurmstring) Eingabe zu tätigen hat. Begreife, mit der IBAN und BIC und der Summe hat es sich für die Bank erledigt. Was der Kontoinhaber dann macht, interessiert nur den.
Leo K. P. schrieb: > Die Geldinstitutel lieben es wenn denen auf's Wort geglaubt wird. > Insbesondere in einenm unerwarteten und rein zufälligen > Zwischenfall... Kontoauszug bei Erhalt prüfen != Kontoauszug einscannen und Texterkennen. Prüfen tu ich den Kram rein optisch. (Zumal die Kontoauszüge schon seit etlichen Jahren nur noch als PDF bei mir ankommen.) Prüfen heißt für mich PDF öffnen, mir die Positionen anschauen und auf Plausibilität prüfen - sind es nur Sachen, die ich bezhalt habe, stimmen die Beträge, und die Sache ist durch. Das sollte man allerdings nicht erst nach 10 Jahren machen. ;-) > [i]interessierts[/i] Dich nun dafür oder doch nicht? Resp. hast Du nun > doch Bedarf fuer Bankunterlagen? > Bitte entscheide Dich... Interessieren tut mich der alte Kram nicht. Bei der Steuererklärung brauche ich manchmal noch etwas aus dem Vorjahr, für das man eben die Steuererklärung macht. Alles darüber hinaus habe ich mir danach nie wieder angeschaut, und nur noch in die Hand genommen, um es durch den Aktenvernichter zu jagen. Wie Du jetzt auf "grundsätzlich kein Bedarf für Bankunterlagen" kommst, ist mir rätselhaft.
Hallo, also ich bin jetzt 64 Jahre und ziemlich irritiert. Schon seit Jahren erhalte ich den Kontoauszug als PDF und natürlich kann ich darin auch ohne OCR suchen, denn PDF enthält ja die komplette Textinformation. Mein Rechner ist gerade zur Reparatur, die Daten werden vermutlich verloren gehen, kein Backup gemacht seit Monaten, aber die PDFs liegen ja alle in der Cloud :-) Es gibt eine Verjährungsfrist und nach Rücksprache mit einem Rechtsanwalt muss ich mir um davor liegende Rechnungen und Buchungen keine Gedanken mehr machen. Ich glaube, es war zum Ende des dritten kompletten Jahres, also maximal 4 Jahre. Es gibt eine Ausnahme: im Erbfall kann es sein, dass Gläubiger behaupten, eine Forderung sei offen und dann der Erblasser nur unvollständige Papierauszüge hinterlassen hat. Dann kann man die Auszüge 1 Nacht einscannen oder auch mit Hilfskräften ein paar Stunden durchsuchen. Und wenn die unvollständig sind und man nix findet, dann kann man die Bank beauftragen, nach der zugehörigen Buchung zu forschen. Been there, done that. Es gibt Banken, die einen mit Papierauszügen zwangsversorgen, die immer noch 2 Tage für eine bankinterne Überweisung aufs Tagesgeldkonto brauchen, die kann ich nicht brauchen, da hab ich längst gewechselt und seitdem sehe ich, das Geld fließt bei Bedarf in wenigen Sekunden. Naja und Export als CSV sollte heute jede Bank mit der Umsatzanzeige als Web-Page bereitstellen. Gruß, Michael
micha54 schrieb: > denn PDF enthält ja die komplette Textinformation. Das muss nicht so sein, PDF kann auch nur Bilder enthalten. Kommt halt drauf an, wer die PDF-Dateien erzeugt.
Rufus Τ. F. schrieb: > micha54 schrieb: >> denn PDF enthält ja die komplette Textinformation. > > Das muss nicht so sein, PDF kann auch nur Bilder enthalten. Kommt halt > drauf an, wer die PDF-Dateien erzeugt. Wenn mir die Bank eine PDF des Kontoauszuges mit einem Bild als Inhalt statt Text schickt würde ich umgehend die Bank wechseln. Denn das zeugt von maximaler Inkompetenz, denn es entspricht nicht nur nicht den Vorgaben der Archivierbarkeit, der Lesbarkeit für Sehbehinderte sondern ist schlichtweg auch absurd in allen technischen belangen (Erzeugungsdauer, Speicherverbrauch, Bandbreitenverbrauch, etc.).
Kolja L. schrieb: > Sorry, bin etwas genervt von diese "Zukunft". geht mir [hnlich. N[mlich immer dann, wenn man meinen Namen, der Sonderzeichen enth[lt nicht richtig verarbeiten kann. dar]ber k{nnte ich kotzen
In 5 Wochen ist der 5. Jahrestag der Frage... Hast Du eine Lösung zur Digitalisierung der Kontoauszüge gefunden?
:
Bearbeitet durch User
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.