Hallo zusammen! Bei mir haben sich über die Jahre größere Datenbestände angehäuft, die auf verschiedenen Datengrab- und Backup-Platten schlummern. Ich möchte hier gern vernünftig aufräumen und alles zusammen führen und ein vernünftiges Backup-Konzept entwickeln, leider finde ich keine passenden (Linux-) Tools, wahrscheinlich suche ich nach den falschen Stichworten oder denke zu kompliziert. Am Ende soll ein kompletter Bestand aller Daten an zwei örtlich getrennten Orten liegen. Neuzugänge möchte ich auf einer von beiden Seiten hinzufügen, sie sollen dann über's Netz auf die jeweils entfernte Seite synchronisiert werden. Das dürfte mit rsync oder ähnlich hinzukriegen sein. Schwieriger finde ich das Zusammenwerfen der Daten. Ein paar Sachen habe ich doppelt und dreifach in verschiedenen Backups. Ich kann nicht einfach Checksummen aller Dateien bilden und doppelte löschen - manchmal muss eine Datei ja mehrfach vorhanden sein. Zum Testen der Backups bei kompletter Auslagerung von Daten könnte das allerdings sinnvoll sein. Beispielszenario: * Ich schleppe 15 Ordner mit 200GB Digitalbildern ständig mit mir rum, obwohl ich sie nicht ständig im Zugriff brauche - die SSD im Notebook läuft voll. Es gibt jeweils Backups (Kopien) der ältesten 14 Ordner. * Ich kopiere die 15 Ordner vom Notebook auf das Datengrab A. * Datengrab A repliziert die 15 Ordner mit der Zeit auf Datengrab B und ist nach 3 bis 4 Tagen fertig. * Auf Datengrab B werden Checksummen der Dateien in den 15 Ordnern gebildet und ich lade sie bei Gelegenheit runter. * Nun kann ich aus den 15 Ordnern alle Dateien mit identischen Checksummen löschen. Sind die Ordner hinterher leer, weiss ich, dass beide Kopien auf den Datengräbern intakt sind. * Jetzt kann ich aus allen Foto-Backups ebenfalls alle Dateien mit identischen Checksummen löschen. So würde ich im Foto-Fall irgendwann auf einen grünen Zweig kommen. Das kann ich leider z.B. bei Programmcode nicht machen, weil eine in mehreren Projekten benötigte Library o.ä. ja bitte da drin bleiben soll ;) Ist meine Idee komplett abwegig oder gar bescheuert? Hat da jemand einen Tipp für mich, wie ich da ggf. besser vorgehen kann? Oder gibt es eine Software, die da vielleicht helfen könnte? Patrick Christian
Ich kann git-annex empfehlen, man braucht zwar etwa eine Woche bis man sich eingearbeitet hat aber danach braucht man sich kaum mehr um anzahl der kopien, wo ist was etc. zu kümmern. Deduplizierung auf dateiebene findet per design statt. http://git-annex.branchable.com/
Wenn du mit der Sortiererei fertig bist, würde ich dir raten, timeshift zu verwenden. Fürs Sortieren würde ich evt empfehlen ein entsprechendes Skript selbst zu schreiben, welches die Änderungsdaten vergleicht und entsprechend Hardlinks anlegt, so ähnlich wie timeshift, das reduziert den genutzten Speicherplatz erheblich.
Harald W. schrieb: > Lukey schrieb: > >> Ich kann git-annex empfehlen, > > Funktioniert das auch mit Windows(7)? Mehr oder weniger... http://git-annex.branchable.com/todo/windows_support/
Mit dem Tool fdupes (unter Linux) kannst du die doppelten Dateien auch finden. Bei Programmen könntest du mit symbolischen links arbeiten, bei verschiedenen Betriebssystemen wird's da aber schwierig. Ein Dateisystem wie ZFS bietet das Feature depulikation. Das macht das alles automatisch, hat aber den Nachteil, dass es sehr viel RAM kostet und du noch ECC RAM brauchst. Die Checksummmen würde ich übrigens auf dem Medium erstellen, wo du das zuerst machen kannst. Also auf dem Notebook. Denn bei der Übertragung oder Speicherung könnten die Daten theoretisch kaputt gehen. Theoretisch, weil die Übertragungsmedien in der Regel entsprechende Sicherungsschichten haben um genau so etwas zu verhindern.
Es gibt auch OpenDedup (opendedup.org). Die bilden ein deduplizierendes Filesystem auf ein normales ab. Geht auch mit der Cloud, und ist gerade da sehr sinnvoll. Es wird ja nicht nur der teure Speicherplatz reduziert, sondern die Anzahl der PUTs, die ja auch was kosten. Und dann läuft es unter Linux und Windows. Zumindest theoretisch. Praktisch finde ich es trotz aller vollmundiger Aussagen ziemlich buggy, vermutlich weil der Core in dem Java-Dreck geschrieben ist und nach einiger Laufzeit immer langsamer wird und obskurere Fehler bis zum Stillstand bringt. Wird auch von Veritas als S3/Azure/etc-Interface für Backup Exec beworben, aber auch da ist es ein Tamagotchi. Bei unserer Anwendung steigt es fast jede zweite Woche bei der Cloud-Deduplizierung von ca. 2TB aus und hängt dann alle Backup-Jobs auf, auch die primären lokalen Backups :( Aber YMMV.
:
Bearbeitet durch User
Georg A. schrieb: > und hängt dann alle Backup-Jobs auf Genau da ist der wunde Punkt, daß manchmal durch exotische Namen oder Überlängen etwas hängt. Man sollte erst mal sicher sein, daß ALLES gesund auf MEHR als einem Backupmedium angekommen ist. Nachdem ich vor Jahren ca. 100kg defekte Festplatten ausgetauscht habe, beschleichen mich ein paar Zweifel, ob EIN Backup reicht. Messwerte und Fotos könnten unwiederbringlich sein! 8-) Eine einzige Prüfzahl garantiert noch keinen gescheiten Inhalt. Man sollte schon bei der Dateibezeichnung auf sinnreiche Konventionen achten um später schneller mit EINFACHEN Mitteln suchen zu können. In 20 Jahren wird keines der heutigen Backupprogramme mehr laufen. ls -a 2019_01_10Temperatur* könnte noch funktionieren?
Eine zeitgmäße Lösung wäre ein filesystem mit checksummen wie zB btrfs (inkl snapshots) oder ext4 mit metadata checksums (kernel..) das ganze auf einem raid etc.. rsync/rsnapshot oder borgbackup wäre geeignete backupprogramme. generell sollten die beiden externen backups keinerlei beziehung zueinander haben, sprich autark sein
TestX schrieb: > das ganze auf einem raid etc.. Ein Raid ist kein Backup. Ein Irrtum rm -r geht schnell.
@oszi40 bitte mal im richtigen kontext lesen...das raid ist für die verfügbarkeit und checksummen prüfung für das dateisystem...das hat nichts mit backup zu tun
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.