Forum: Offtopic spezielles OCR für Kontoauszüge?


von Frank E. (Firma: Q3) (qualidat)


Lesenswert?

Das Prinzip ist mir klar, darüber müssen wir nicht diskutieren: Ich 
besitze einen Einzugs-Dokumentenscanner samt Treibersoftware und ich 
weiss auch, was OCR ist und wie man es anwendet.

Das Problem ist, dass ich gerne eine spezialisierte Software hätte, die 
auch den Inhalt der Kontoauszüge richtig zuordnen kann - und da ist mir 
Nichts bekannt. Mit "normalem" OCR habe ich hinterher einen ziemlich 
chaotischen Rohtext, ohne jede automatisierte Zuordnungsmöglichkeit der 
Inhalte. Für den Anfang würde ja das Auffinden der Auszugsnummer und des 
Datums schon einen Fortschritt bedeuten ...

Kennt da jemand eine Lösung?

Und ja, ich kenne auch das Herunterladen der CSV-Datei bei der Bank. 
Aber erstens ändern die alle Nasen lang die Dateistruktur und zweitens 
sind dort nur relativ geringe Zeiträume rückwärts verfügbar - im 
Gegensatz zu Bergen von papiernen Auszügen ...

von Wegstaben V. (wegstabenverbuchsler)


Lesenswert?

Frank Esselbach schrieb:
> Und ja, ich kenne auch das Herunterladen der CSV-Datei bei der Bank.
> Aber erstens ändern die alle Nasen lang die Dateistruktur

meine BAnken-Software (Starmoney) kennt ein elektronisches Format des 
Kontoauszugs (also nicht nur irgendwelche csv-Listen) und kann ..

Frank Esselbach schrieb:
> dass ich gerne eine spezialisierte Software hätte, die
> auch den Inhalt der Kontoauszüge richtig zuordnen kann

.. genau das machen: Nämlich Belegen einer bestimmten Kategorie zuordnen

Frank Esselbach schrieb:
> zweitens
> sind dort nur relativ geringe Zeiträume rückwärts verfügbar

wenn du jetzt anfängst, hast du in 2 Jahren alle Auszüge der letzten 2 
Jahre elektronisch vorliegen ;-)

Ich nutze Starmoney seit ca. 10 Jahren, und bei mir liegen sogar die 
letzten 10 Jahre elektronisch vor.

: Bearbeitet durch User
von Adam A. (adam)


Lesenswert?

Ich kenne keine Lösung, und lade die "elektronischen Auszüge" alle paar 
Monate manuell herunter. Die lassen sich gut "greppen", wenn man was 
sucht.

Eine Alternative zu Starmoney ist wohl gnucash, das habe ich vor einigen 
Jahren mal probiert. Die Bibliothek zur Kommunikation mit der Bank lässt 
sich auch selbst nutzen (Kommandozeile?), so dass man den Abruf der 
Daten auch automatisieren kann, wenn man Gnucash nicht wirklich nutzt.

Zum Einscannen und OCR: Wenn dein Scanner die Scans geraderechnet und du 
sie immer in derselben Orientierung einlegst, kannst du evtl. mit 
ImageMagick oder anderen CLI-Grafikprogrammen die dich interessierenden 
Ausschnitte einer weiteren OCR-Software vorlegen.

Z.B. https://code.google.com/p/tesseract-ocr/

Ansonsten OpenCV (EasyCV?) um die Scans ersmal auszurichten bzw. die 
interessanten Regionen zu finden (Template Matching, SIFT, ..).

Gehört der Thread nicht eigentlich in PC-Software/Programmierung?

von Robert L. (lrlr)


Lesenswert?

>Aber erstens ändern die alle Nasen lang die Dateistruktur und zweitens
>sind dort nur relativ geringe Zeiträume rückwärts verfügbar - im
>Gegensatz zu Bergen von papiernen Auszügen ...

um was geht es hier bitte?

vorallem das "zuordnen"?

zu WAS?
Buchhaltung ? Privat? Firma?

aber egal:

ich glaub nicht dass sich das CSV dauernd ändert, ausserdem wäre das für 
jemanden der das scheinbar nur alle paar jahre macht? ziemlich egal
(und dass sich Andere formate nicht ändern, hat auch nachteile, z.b. 
wenn "jemand" auf die idee kommt, man könnte IBANs verwenden anstelle 
BLZ/kontonummer,...)

dann gäbe es da ja auch noch MT940 (inzwischen CAMT54 usw. )
(das wäre das format der Wahl für sowas)

PDF (der "normale" teil) ist sowieso in TEXT form im PDF (und nicht als 
bild)

das was du suchst, hat also nichts mit OCR zu tun,
sondern einem PARSER der dir bestimmt inhalte rausfiltert (dank 
zwischensummen usw. auch "ganz toll"..)
wo jede seite "anders" ausschaut: aber hauptsache "ständig" änderde CSV 
kritisieren?? ;-)

wenn die "Inhalte" dann hast, muss aber immer noch "irgendwas" die 
zuordnen, da kann dir aber keiner ohne genauer Hintergrundinfos helfen..

(hier bei den windows binary gibt ein kleine PDFtotext.exe, dann hast 
mal text und kannst ein bisschen spielen:
http://www.foolabs.com/xpdf/download.html)

: Bearbeitet durch User
von Michael L. (michaelx)


Lesenswert?

Frank Esselbach schrieb:
> Kennt da jemand eine Lösung?
>
> Und ja, ich kenne auch das Herunterladen der CSV-Datei bei der Bank.
> Aber erstens ändern die alle Nasen lang die Dateistruktur und zweitens
> sind dort nur relativ geringe Zeiträume rückwärts verfügbar - im
> Gegensatz zu Bergen von papiernen Auszügen ...

Scannen ist an dieser Stelle einfach Murks ...

Die Lösung ist ganz klar die Verwendung elektronischer 
Kontoauszugsdaten. Und man braucht sich auch nicht mit irgendwelchen 
sich möglicherweise ändernden CSV-Dateien herumärgern. Dafür gab es auch 
schon vor SEPA definierte Datenstrukturen, jetzt mit SEPA exakt 
definiertes, wohlgeformtes XML. Alle Daten sind getagt, und es wird sich 
nichts irgendwie zufällig änder, was bei Kontoauszügen allenthalben 
vorkommt. Da reicht ein SW-Update des Auszugsdruckers ... Mit den 
SEPA-XML-Dateien sollte jede aktuelle Banking-Software was anfangen 
können.

Wie schon bemerkt, muss du deinen Datenbestand halt langfristig 
aufbauen. - Aber ist halt blöd, wenn man das verpeilt hat, und z.B. nach 
1,5 Jahren Selbständigkeit feststellt, dass man gewisse Unterlagen 
vorhalten sollte ...

;-)

von Jörg W. (dl8dtl) (Moderator) Benutzerseite


Lesenswert?

Michael L. schrieb:
> Dafür gab es auch schon vor SEPA definierte Datenstrukturen,

MT940, versteht beispielsweise gnucash (und natürlich auch die diversen
käuflichen Tools).

Scannen ist wohl wirklich die allerletzte Wahl hier.

von Matthias S. (dachs)


Lesenswert?

Jörg Wunsch schrieb:

> Scannen ist wohl wirklich die allerletzte Wahl hier.

Ganz sicher. Bei Kontodaten kommt es ja wohl darauf an, dass die 100% 
korrekt sind. Und das klappt bei OCR ja nie.

Matthias

von Hermann K. (r2d2)


Lesenswert?

Die vermutlich einfachste Lösung dürfte das Abrufen der Informationen 
per HBCI sein (vorausgesetzt deine Bank bietet das an). Mache ich seit 
langem mit Gnucash und das funktioniert problemlos. Nachdem man das 
einmal gemacht hat und Buchungen zugeordnet hat werden weitere, ähnliche 
Buchungen automatisch zugeordnet. Der Zeitraum für den ich abrufen kann 
ist außerdem deutlich länger als über das Web-Interface.

von Jörg W. (dl8dtl) (Moderator) Benutzerseite


Lesenswert?

R2 D2 schrieb:
> Nachdem man das einmal gemacht hat und Buchungen zugeordnet hat werden
> weitere, ähnliche Buchungen automatisch zugeordnet.

Das wiederum ist aber eine Eigenschaft von gnucash und nicht des
benutzten Datenformats. ;-)

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.