Forum: PC Hard- und Software Lösung für privates Paperless Office und Cloud auf Linux


von Oliver R. (oli1982)


Lesenswert?

Hallo zusammen

Ich möchte meine private (elektronische) Dokumentenverwaltung etwas 
optimieren und bin dafür auf der Suche nach einer Lösung die folgende 
Anforderungen erfüllt. Es können durchaus mehrere Programm sein, welche 
die gewünschten Funktionalitäten erfüllen. Hardware ist eine selbst 
zusammengestellte NAS auf der Debian 8 mit Openmediavault läuft.

- Volltextsuche in den Dokumenten (auch PDF)
- Bereitstellen der Dokumente für Zugriffe von aussen über das Internet 
(auch Ändern und wieder Hochladen muss möglich sein)
- Zugriff intern per SMB (stellt aber Openmediavault schon bereit)
- Überwachen eines Verzeichnisses (der Scanner speichert darin die 
gescannten PDFs) und automatische OCR sowie wenn möglich automatisches 
Umbenennen und Verschieben der Dateien je nach Inhalt
- Meine NAS hat keinen Bildschirm, die Funktionalität muss alle per 
Web-Oberfläche verfügbar sein

Was ich mir bis jetzt ausgedacht habe und wahrscheinlich sogar 
funktionieren würde:

- Openmediavault als NAS Verwaltung

- OCRmyPDF für die Texterkennung im PDF. Dieses kann im Gegensatz zu 
PyPDFOCR keine automatische Überwachung eines Verzeichnisses und auch 
keine Verschiebung der Dateien, dies könnte ich aber wohl 
hinzuprogrammieren. Das macht aber ein Update mühsam, da ich dann 
jedesmal mergen müsste. PyPDFOCR hat dafür die Möglichkeit nicht die 
Seiten auszurichten und zu säubern was ich wichtig finde.

- OwnCloud mit search_lucene App zur Volltextsuche. Search_lucene ist 
zwar nicht schlecht, muss aber ebenfalls angepasst werden um das 
indexieren von externem (auch lokalem, einfach ausserhalb von OwnCloud) 
Speicher zu erlauben. Ausserdem indexiert es keine PDFs wenn vom 
verwendeten PDF Parser nicht UTF-8 kodierte Strings zurückkommen. Auch 
hier also wieder eigenen Anpassungen.

Grundsätzlich würde das wohl meine Anforderungen erfüllen, vor allem mit 
dem OCR und OwnCloud als Volltextsuche bin ich aber nicht ganz 
glücklich. Vielleicht kennt ja jemand eine Software (darf auch was 
kosten), welche meine Anforderungen erfüllt. Ich habe schon einige 
Dokumentenmanagementsysteme angeschaut, aber die sind für meinen Bedarf 
overkill. Ich möchte einfach nur meine Dokumente (gescannte PDFs, native 
PDFs, Word, PPT, Excel, usw.) durchsuchen können und sie dabei aber auch 
noch effektiv in verschiedenen Ordnern auf dem NAS ablegen können, damit 
sie auch ohne die Volltextsuche über den Zugriff von aussen auffindbar 
sind. Am liebsten automatisch, wenn ich das noch von Hand tun müsste 
könnte ich damit leben.

Das Bereitstellen gegen aussen würde dann aber wohl doch wieder OwnCloud 
sein, da habe ich keine brauchbare Alternative gefunden.

Danke für eure Inputs.

: Bearbeitet durch User
von GuteIdee (Gast)


Lesenswert?

Cooles Projekt. Werd mir den Thread mal bookmarken, könnte für mich auch 
interessant werden. Wäre nett wenn du später deine Lösung nochmal hier 
zusammenfasst und ggf. auf Github packst :-)

Viel Inspiration kann ich dir nicht geben, weil ich die Idee aber gut 
finde, eine Sache (auf die du vielleicht auch selbst gekommen bist/wärst 
;)):

Oliver R. schrieb:
> - OCRmyPDF für die Texterkennung im PDF. Dieses kann im Gegensatz zu
> PyPDFOCR keine automatische Überwachung eines Verzeichnisses und auch
> keine Verschiebung der Dateien, dies könnte ich aber wohl
> hinzuprogrammieren. Das macht aber ein Update mühsam, da ich dann
> jedesmal mergen müsste. PyPDFOCR hat dafür die Möglichkeit nicht die
> Seiten auszurichten und zu säubern was ich wichtig finde.

Ich verstehe das so, dass du das Verzeichnis scannen/überwachen in 
OCRMyPDF mit einbauen willst, richtig?
Warum machst du das nicht zweiteilig und schreibst dir die Skripte zum 
Überwachen selber und die triggern dann das OCR. Und wenn das OCR fertig 
ist, holt ein anderes Script das Dokument ab und verschiebt es. Setzt 
natürlich vorraus das OCRmyPDF dann anständig ansteuerbar ist...

von Tobias .. (bitfehler)


Lesenswert?

Das hier könnte vielleicht was für dich sein:
https://github.com/danielquinn/paperless

von Oliver R. (oli1982)


Lesenswert?

@GuteIdee

Ja wenn es keine komplett andere, bessere Lösung gibt werde ich die 
Skripte wohl schon aufteilen. OCRmyPDF lässt sich gut über die 
Kommandozeile steuern, das sollte also kein Problem sein.

Wie ich es schlussendlich gelöst habe werde ich sicher hier schreiben, 
ob ich dann meine Skripte auch irgendwo hochlade bin ich mir noch nicht 
so sicher. Ich kann die Dinger zwar so programmieren dass sie tun was 
ich will, aber professionell und schön ist wohl anders, darum zeige ich 
die Sachen ungern :-)

@bitfehler

Danke, dieses Projekt kannte ich noch nicht. Eigentlich sehr schön und 
tut für PDFs ungefähr was ich will, lässt sich aber leider schlecht mit 
meinen anderen Anforderungen kombinieren.
Als Alleinelösung reicht es nicht, da nur PDFs geparst und in die 
Datenbank aufgenommen werden, ich möchte aber halt von aussen mindestens 
Zugriff auf alle Dateien haben, nicht mal unbedingt mit Volltextsuche.
Nur für PDF diese Lösung und für alles andere z.B. OwnCloud ist mir zu 
umständlich, zumal die PDFs ja nirgends im "Klartext" liegen und ich so 
für ein Thema immer an zwei unterschiedlichen Orten suchen muss. Eine 
Verschlüsselung Serverseitig ist mir nicht wichtig.

Ich hänge schon noch ein bisschen an meiner Ordnerstruktur und möchte 
diese eigentlich nur aufgeben wenn es tatsächlich eine andere 
überzeugende Lösung gibt, die dann aber wirklich alle gängigen 
Dokument-Dateiformate indexiert und in einer zentralen Datenbank 
bereitstellt.

von Oliver R. (oli1982)


Lesenswert?

So, ein bisschen Zeit ist vergangen und ich habe das meiste erreicht was 
ich haben wollte:

- Auf meiner NAS läuft Debian mit openmediavault 3 
(http://www.openmediavault.org/) als Verwaltung

- Meine Shares sind per Samba im lokalen Netz freigegeben

- Ein Phyton Script überwacht ein Ordner in welcher mein Scanner die 
PDFs speichert und macht anschliessend mit ABBYY CLI OCR for Linux 
(http://www.ocr4linux.com/) die Texterkennung. Kostet zwar etwas aber 
Versuche haben ergeben dass diese Software um Welten besser als z.B. 
tesseract ist. Die Dokumente werden dann anhand ihres Inhalts in einen 
bestimmten Ordner verschoben. Geplant ist noch eine automatische 
inhaltsbasierte Umbenennung.

- Den grundsätzlichen Web-Access der Dokumente erreiche mittels Cloud 
Commander (http://cloudcmd.io/). Das ist ein web-basierter File-Browser. 
Da ich meine Dokumente auch per Samba Share haben will und auch um eine 
gewisse Software-unabhängigkeit zu bewahren kam nichts in Frage was eine 
Datenbank hat. Die einzelnen Dateien müssen in einer Ordnerstruktur auf 
dem Server liegen.

- Die Volltext-Suche in den Dokumenten geschieht mittels recoll 
(https://www.lesbonscomptes.com/recoll, kompiliert ohne GUI) und der 
Webaccess über recoll-webui (https://github.com/koniu/recoll-webui)

Soweit ich bin mal zufrieden und die Zeit wird zeigen ob und wo ich noch 
Anpassungen vornehmen muss.

von Borislav B. (boris_b)


Lesenswert?

Oliver R. schrieb:
> Ein Phyton Script überwacht ein Ordner in welcher mein Scanner die
> PDFs speichert und macht anschliessend mit ABBYY CLI OCR for Linux
> (http://www.ocr4linux.com/) die Texterkennung. Kostet zwar etwas aber
> Versuche haben ergeben dass diese Software um Welten besser als z.B.
> tesseract ist. Die Dokumente werden dann anhand ihres Inhalts in einen
> bestimmten Ordner verschoben. Geplant ist noch eine automatische
> inhaltsbasierte Umbenennung.

Ich habe fast die gleiche Lösung im Einsatz, jedoch mit Tesseract. Und 
die Ergebnisse sind super. Nahezu jedes Wort der gescannten Dokumente 
wird fehlerfrei erkannt (bis auf verschmutzte/verknickte/gelochte 
Stellen).

von Oliver R. (oli1982)


Lesenswert?

Echt jetzt? Hast du tesseract noch irgendwie konfiguriert/trainiert? Ich 
habe mal einfach ganze A4 Seiten mit Text (eigentlich Seiten voll mit 
einer uuid und verschiedene Schriftarten und andere Seiten mit Texte) 
eingescannt (300dpi, Graustufen, gut lesbar) und es waren etliche Fehler 
drauf.
Ich habe das PDF noch wenn du es mal ausprobieren willst :-)

von Kai A. (kaiand1) Benutzerseite


Lesenswert?

Ja so Richtige Lösungen hab ich bisher auch nicht gefunden wodurch ich 
mal etwas Angefangen hab auch selbst zu machen...

Mit dem OCR ging es bei mir soweit die paar Testläufe auch Fehlerfrei 
jedoch liegen bei uns die Dokumente in 600 DPI (Farbe & Graustufen) vor.

von Borislav B. (boris_b)


Lesenswert?

Hm, kann mich nicht entsinnen da viel Aufwand betrieben zu haben.
Wichtig ist halt, dass die Auflösung stimmt, der Text gut lesbar ist und 
das richtige Wörterbuch verwendet wird.

Vielelicht bemerke ich die Fehler auch einfach nur nicht, da meine Suche 
recht gutmütig ist und auch ähnliche Wörter akzeptiert ;-)

von Oliver R. (oli1982)


Lesenswert?

Ich würde ja auch mit 600dpi scannen, das wäre mir noch egal...

Die Suche ist auch gutmütig aber das automatische Verschieben in Ordner 
verträgt keine Fehler, da müssen die Schlüsselwörter richtig erkannt 
worden sein.

von Markuhs (Gast)


Lesenswert?

Hatte mal hier im Forum gelesen, dass einer ein OCR über seine PDF's 
laufen ließ und den so erstellten Text unsichtbar in den Hintergrund der 
jeweiligen PDF's lag. So konnte er jeden Scan auch durchsuchen.

von Oliver R. (oli1982)


Lesenswert?

Genau so mach ich (resp. die von mir eingesetzte Software aber auch z.B. 
OCRmyPDF welches auf Tesseract basiert) auch :-)

Ach ja und weil Freitag ist darf ich: PDFs hat KEINEN Apostroph -> 
www.deppenapostroph.info

von Gästle (Gast)


Lesenswert?

Oliver R. schrieb:
> Die Dokumente werden dann anhand ihres Inhalts in einen
> bestimmten Ordner verschoben.

Boris P. schrieb:
> Ich habe fast die gleiche Lösung im Einsatz,

Interssant. Wie sieht das mit dem Verschieben aus und wie gut 
funktioniert das?
Laufen die Automatismen so gut, dass ihr nur noch selten korrigierend 
eingreifen müsst?
Sorry für die vielleicht blöden Fragen. Ich kann mir grad nur nicht 
vorstellen, wie ich sowas implementiere und dabei sinnvoll sortierte und 
benannte Dokumente bei rauskommen. Wäre nett, wenn ihr hier kurz dazu 
noch einige erklärende Worte schreiben könnt.

von Oliver R. (oli1982)


Lesenswert?

Ich habe diesen Teil von PyPDFOCR übernommen: 
https://github.com/virantha/pypdfocr

Ich habe es noch ein bisschen erweitert, so dass er nicht nur schaut ob 
alle der Wörter irgendwo vorkommen sondern dass er auch ganze 
Zeichenketten vergleichen kann. Im Test funktionierts soweit ok, habs 
aber erst ein paar Tage im Einsatz und bin auch noch am aufbauen des 
Config-Files. Wenn man aber davon ausgeht dass die OCR richtig war gibts 
keinen Grund warum das nicht funktionieren soll. Umbenennen habe ich 
nocht nicht, sollte aber auch nicht unlösbar sein.

von Markuhs mit hohem Puls (Gast)


Lesenswert?

Oliver R. schrieb:
> Genau so mach ich (resp. die von mir eingesetzte Software aber
> auch z.B. OCRmyPDF welches auf Tesseract basiert) auch :-)
>
> Ach ja und weil Freitag ist darf ich: PDFs hat KEINEN Apostroph ->
> www.deppenapostroph.info

Aha. Danke für die "Beleidigung". Wenn man schon andere auf Fehler 
hinweisen muss, sollte man auch mal auf den eigenen Satzbau (und die 
anderen Fehler) achten. Ich bin nicht perfekt, und (ja, da darf ein 
Komma hin!) gewiss kein Rechtschreibgenie, aber wenn es dich so sehr 
stört: Behalte es einfach für dich, statt andere zu beleidigen!

PS: Dieser Post darf gerne gelöscht werden!

von SimonuCarolaR (Gast)


Lesenswert?

Ich würde solche Umstellungen grundsätzlich gar nicht selbst vornehmen, 
es sei denn, man ist wirklich wirklich gut in sowas. Wir haben auch in 
der Firma auf Virtual Server und Cloud Computing umgestellt, aber selbst 
die IT hat so ihre Schwierigkeiten manches Problem auszumerzen.
Einen Teil hat die Abteilung selbst gemacht, den anderen Teil ein 
externer Anbieter namens Net Professionals 
(http://www.netprofessionals.at/weitere-services/netzwerktechnik/). Das 
hat im Großen und Ganzen gut geklappt, war aber für uns als Mitarbeiter 
eine schwierige Zeit sich vom Papier zu lösen und der Digitalisierung 
ihren Lauf zu lassen.
Weglaufen kann man davor ja nicht, also muss man sich früher oder später 
sowieso damit beschäftigen bevor man hinterher hinkt. Und das natürlich 
nicht nur beruflich sondern auch privat, von daher ein sehr guter Punkt!

von EndeDerVernunft (Gast)


Lesenswert?

aber selbst
> die IT hat so ihre Schwierigkeiten manches Problem auszumerzen.

Die von mir erlebten ITs (*) kannten leider die 100+ tastigen 
Eingabegeräte zu wenig und hielten sich bloss per Maus am PC fest.

(* alles Abteilungen mit mehr als 1 Handvoll MA, in Firmen mit mehr als 
1e2 MA in denen länger als 2 Jahrzehnte HW- &  SW-Entwicklung betrieben 
wird/wurde)

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.