halb OT: zum Fortbestand des Gelben - HTTrack Website Copier ist keine Alternative, auch nicht als Archiv!

Griba @, Dunkeldeutschland, Montag, 22.05.2017, 11:58 vor 2503 Tagen 5305 Views

bearbeitet von unbekannt, Montag, 22.05.2017, 12:02

Habe wie schon seinerzeit vor dem Abschalten des Ketzer-Forums das Forum mittels HTTrack-Programm zu sichern versucht, das hat trotz schnellem Internetzugang eine Woche gedauert und liefert ein nur eingeschränkt verwertbares Ergebnis.

Die Einträge im Forum werden zwar auf meinem Server abgelegt, alle Verweise jedoch einschließlich die auf das und im Forumsarchiv werden nicht umgestellt. Damit wären sie nach dem Abschalten genauso wie die vom Ketzer-Forum verloren!

Lieber Elli, mach bitte mindestens so lange weiter, bis sich ein Nachfolger gefunden hat. [[herz]][[la-ola]]

--
Beste Grüße

GRIBA

Teilweise zu sichern mittels pdf...

Reffke @, Montag, 22.05.2017, 12:46 vor 2503 Tagen @ Griba 4524 Views

Hallo Griba,

Mit einem installierten pdf-Printer kann man jedenfalls relativ leicht einen virtuellen Drucker installieren und je nach Wunsch nutzen!
Die Listen mit langen Links werden dabei aktiv umgesetzt und sind aus dem pdf heraus nutzbar [[zwinker]]
Schau mal rein oder besser: probier es einfach mal!
http://www.cutepdf.com/Products/CutePDF/writer.asp

MfG, Reffke

--
Die Lüge ist wahrer als die Wahrheit, weil die Wahrheit so verlogen ist. André Heller
------------------------------
==> Fundgrube zur Lage: www.paulcraigroberts.org

Link umschreiben

printf @, Montag, 22.05.2017, 15:00 vor 2503 Tagen @ Griba 4230 Views

Hallo!

Könntest Du diesen Satz etwas näher erläutern, vielleicht mit einem Beispiel?

Die Einträge im Forum werden zwar auf meinem Server abgelegt, alle
Verweise jedoch einschließlich die auf das und im Forumsarchiv werden
nicht umgestellt. Damit wären sie nach dem Abschalten genauso wie
die vom Ketzer-Forum verloren!

Eventuell lässt sich ja ein schnelles Script schreiben, welches die Links in den heruntergeladenen Seiten ändert...

Gruß

wget kann links automatisch ändern

Rainer ⌂ @, El Verger - Spanien, Montag, 22.05.2017, 22:44 vor 2503 Tagen @ printf 3667 Views

Eventuell lässt sich ja ein schnelles Script schreiben, welches die Links
in den heruntergeladenen Seiten ändert...

Das Kommandozeilenprogramm wget lädt komplette Webseiten herunter. Dabei können Links automatisch umgeschrieben werden.
-k, --convert-links Konvertiere nach dem Download externe Links zu internen, so dass ein HTML-Dokument Offline betrachtet werden kann.

wget gibt es auch für Windows.

wget Anleitung
https://wiki.ubuntuusers.de/wget/

wget für Windows und Mac
https://www.heise.de/download/product/wget-3073

Das Programm funktioniert einwandfrei. Ich verwende es selbst zum Sichern von Webseiten.

Rainer

--
Ami go home!
RundeKante
WikiMANNia
WGvdL Forum

Hatte ich vor ein paar Tagen versucht, klappte aber nicht. Bitte um weitere(n)Tip(s).

neptun @, Montag, 22.05.2017, 23:19 vor 2503 Tagen @ Rainer 3509 Views

Hallo Rainer,

danke für Deinen Hinweis.

Genau von dieser Seite hatte ich mir vor ein paar Tagen zur offline-Speicherung von Websites den folgenden Befehl geholt:

wget -r -k -E -l 8 http://example.com
(die Erklärungen stehen auf der Seite direkt darunter)

Für das Gelbe habe ich dann folgendes eingegeben:

wget -r -k -E -l 14 http://www.dasgelbeforum.net/forum.php?order=time

Nach gut 40 Stunden hatte ich 38 GB heruntergeladen (also deutlich mehr, als mir @twc-online mit 5,6 GB angegeben hatte), sodaß ich den Ladevorgang abgebrochen habe, weil mir das dann doch zu viel schien.

Leider funktionerte das mit den Links dann doch nicht.

Wer weiß noch etwas über die Größe des Materials?

LG neptun

--
Weil es permanent besonders aktuell ist:
"Es zeugt nicht von geistiger Gesundheit, an eine von Grund auf
kranke Gesellschaft gut angepasst zu sein." (Jiddu Krishnamurti)

Ich habe eine lokal "browsebare" Kopie vom Gelben, inklusive der Bilder

Onkel S. @, Montag, 22.05.2017, 23:31 vor 2503 Tagen @ Griba 4020 Views

Hallo Griba,

Habe wie schon seinerzeit vor dem Abschalten des Ketzer-Forums das Forum
mittels HTTrack-Programm zu sichern versucht, das hat trotz schnellem
Internetzugang eine Woche gedauert und liefert ein nur eingeschränkt
verwertbares Ergebnis.

HTTrack ist Dreck. Habe mir vor paar Jahren ein Programm gebastelt, was mir das DGF runterlädt, in einer lokal browsebaren Version. Inklusive runtergeladener Bilder.

Bei Interesse stelle ich den Code bereit.

Grüße,
S.

--
Keine Anlageempfehlung!
Keine Anlageberatung!
Keine Gewähr!
Umsetzung auf eigene Gefahr!

Habe Interesse. Inkl. Sammlung?

stokk, Montag, 22.05.2017, 23:43 vor 2503 Tagen @ Onkel S. 3657 Views

Bg
stokk

Ebenfalls Interesse

neptun @, Dienstag, 23.05.2017, 00:03 vor 2503 Tagen @ Onkel S. 3706 Views

Hi Onkel S.,

wenn das auch was für linux (debian) ist, dann bin ich ebenfalls sehr interessiert.

LG neptun

--
Weil es permanent besonders aktuell ist:
"Es zeugt nicht von geistiger Gesundheit, an eine von Grund auf
kranke Gesellschaft gut angepasst zu sein." (Jiddu Krishnamurti)

Kannst Du das Archiv auf github hochladen? (oT)

CalBaer @, Dienstag, 23.05.2017, 00:30 vor 2503 Tagen @ Onkel S. 3464 Views

- kein Text -

--
Ein ueberragender Teil der Oekonomen, Politiker, Banker, Analysten und Journalisten ist einfach unfaehig, Bitcoin richtig zu verstehen, weil es so revolutionaer ist.
Info:
www.tinyurl.com/y97d87xk
www.tinyurl.com/yykr2zv2

Super Idee! (oT)

mabraton @, Dienstag, 23.05.2017, 08:59 vor 2502 Tagen @ CalBaer 3349 Views

Sourcen

Onkel S. @, Dienstag, 23.05.2017, 10:28 vor 2502 Tagen @ CalBaer 4043 Views

Hallo CalBaer,

hier mein Quick und Dirty Hack. Habe noch nix mit Github gemacht, deshalb habe ich mal die Sourcen gezippt und als ein File hochgeladen.

https://github.com/onkels/dasgelbeforum-kopierer/blob/master/sources.zip

Ich hoffe ich habe Euch jetzt nicht zuviel versprochen.

Das Programm erzeugt in einem zu definierenden Zielverzeichnis Unterordner für jeweils 1000 Posts. Der Name des Ordners ist Beitragsnummer geteilt durch 1000. Hier im Beispiel mein aktueller Import, der bei den Beiträgen 431000-431999 läuft. Dadurch kann ich jeden Unterordner wegzippen, sobald 1000 Beiträge geladen sind.


[image]

Jeder Ordner enthält neben den 1000 Dateien für die 1000 Beiträge (manchmal weniger, wenn vom Cheffe gelöscht wurde :-) auch einen Unterordner img, dort liegen die Bilder drin, welche in den 1000 Beiträgen referenziert sind. Es werden nicht alle Bilder geladen, war aber zu faul den Fehler zu suchen.

[image]

Aus den URLs der Bilder habe ich alle Sonderzeichen wie . / : & ? rausgeworfen, d.h. man kann am Name der Bilder noch erahnen, von wo ich die geladen habe.

[image]

Hier mal ein wahllos lokal geöffneter Beitrag. Man kann ihn lesen, und die Naviagtion unten zu den anderen Beiträgen funktioniert über relative links zu den anderen lokal gespeicherten Beiträgen.

[image]

Ein Problem habe ich nur mit ganz aktuellen Beiträgen, oder wenn bei alten Strängen neue Beiträge hinzukommen, dann aktualisiere ich nicht die Navigation bei den alten Beiträgen. Das könnte man aber offline neu berechnen.

Wichtig war mir nur, dass ich den Text der Beiträge und auch so viele Bilder wie möglich rette.

In dem ZIP liegen die Sourcen fürs Laden vom DGF als auch zum Laden des alten EWF-Archivs.

Ich werde den Content vom DGF aber nicht auf Github hochladen, da mir die Copyright-Situation unklar ist.

Die Klasse zum Laden ist

internetkopierer.dgf.LadeAktuelleBeitraege

Als Parameter das Zielverzeichnis mitgeben

Und die Pfade in den log4j.properties anpassen.

Wie gesagt, ist alles Quick und Dirty gehackt, funktioniert bei mir, bin aber zu faul das jetzt ordentlich zu machen.

Grüße,
S.

--
Keine Anlageempfehlung!
Keine Anlageberatung!
Keine Gewähr!
Umsetzung auf eigene Gefahr!

Klasse, Besten Dank! (oT)

CalBaer @, Dienstag, 23.05.2017, 17:57 vor 2502 Tagen @ Onkel S. 3220 Views

- kein Text -

--
Ein ueberragender Teil der Oekonomen, Politiker, Banker, Analysten und Journalisten ist einfach unfaehig, Bitcoin richtig zu verstehen, weil es so revolutionaer ist.
Info:
www.tinyurl.com/y97d87xk
www.tinyurl.com/yykr2zv2

Einzelne Benutzer sichern mit HTTrack

Rybezahl, Mittwoch, 24.05.2017, 15:14 vor 2501 Tagen @ Griba 3311 Views

bearbeitet von unbekannt, Mittwoch, 24.05.2017, 15:36

Hallo,

wer die Beiträge bestimmter User mit HTTrack sichern möchte, kann auch so vorgehen:

Den Benutzernamen in die Suchmaske eingeben und auf "Suchen" klicken. Der Link sieht dann zum Beispiel so aus:

http://www.dasgelbeforum.net/ewf2000/search.php?search=Dottore&x=10&y=0

Jetzt schaut man, wie der letzte Link der Suche aussieht, nämlich so:

http://www.dasgelbeforum.net/ewf2000/search.php?search=Dottore&x=10&y=60

In HTTrack muss man jetzt alle Links von 0 bis 60 eintragen (ingesamt also 61 Links, da muss man mal bisschen Hand anlegen). Darunter gibt es den Knopf Einstellungen, dort unter dem Reiter Grenzwerte - Maximale Tiefe eine 2 eintragen. Dann den Kopierprozess starten. Das Paket ist etwa 213 MB groß.

Wer noch die Beiträge, die im Thread-"Baum" um dottore herum angezeigt werden, sichern möchte, muss bei Maximale Tiefe eine 3 eintragen. Das Datenvolumen wird dabei entsprechend größer.

Auf diesem Wege kann man sich auch eine übersichtliche Datenbank nach Benutzer und Suchergebnisseite anlegen. Allerdings werden die Links nicht umgestellt, ist also nur für den ganz persönlichen Gebrauch geeignet.

Und nicht vergessen immer schön den jeweiligen Benutzernamen als Projektnamen zu benutzen. Auf der Übersichtsseite sieht der Nutzer dann gleich eine Liste mit den gesicherten Benutzern. Klickt man auf den Namen, erscheinen die Suchergebnisseiten in der Reihenfolge, die man vorher in das Adressfeld eingegeben hat. Wer es mehr oder weniger Chronologisch will, sollte bei Seite 60 anfangen und dann folgend 59, 58 usw. in das Feld kopieren.

Gruß
Rybezahl.

--
Dieses Schreiben wurde elektronisch erstellt und enthält deshalb keine Unterschrift.

Wichtiger Hinweis

Rybezahl, Sonntag, 28.05.2017, 10:18 vor 2497 Tagen @ Rybezahl 3418 Views

bearbeitet von unbekannt, Sonntag, 28.05.2017, 10:21

Hallo,

falls jemand im neuen Gelben Forum mit einer maximalen Tiefe von 3 arbeiten möchte, bitte diese Filterliste nutzen und unter Einstellungen - Filterregeln hineinkopieren (die Zeilenumbrüche bitte entfernen, vor jedem Link muss das "-" stehen):

-http://www.dasgelbeforum.net/forum.php?order=time
-http://www.dasgelbeforum.net/forum.php?order=last_answer
-http://www.dasgelbeforum.net/ticker.php
-http://www.dasgelbeforum.net/forum.php?page=0&category=0&order=time
-http://www.dasgelbeforum.net/login.php
-http://www.dasgelbeforum.net/register.php
-http://www.dasgelbeforum.net/links/menu.htm
-http://www.dasgelbeforum.net/links/buecher.htm
-http://www.dasgelbeforum.net/links/*
-http://www.dasgelbeforum.net/forum.php
-http://www.dasgelbeforum.net/forum.php?order=last_answer
-http://www.dasgelbeforum.de.org/ticker.php
-http://www.dasgelbeforum.net/forum.php?order=last_answer&category=0
-http://www.dasgelbeforum.net/board.php
-http://www.dasgelbeforum.net/mix.php
-http://www.dasgelbeforum.net/rss.php
-http://www.dasgelbeforum.net/rss_topics.php
-http://www.dasgelbeforum.net/links/leitlinien.htm
-http://www.dasgelbeforum.net/forum_entry.php?id=318584
-http://www.dasgelbeforum.net/links/technik.htm
-http://www.dasgelbeforum.net/register.php
-http://www.dasgelbeforum.net/login.php?action=pw_forgotten
-http://www.dasgelbeforum.net/forum_entry.php?id=165537
-http://www.dasgelbeforum.net/forum_entry.php?id=166685
-http://www.dasgelbeforum.net/forum_entry.php?id=162866
-http://www.dasgelbeforum.net/forum_entry.php?id=92466
-http://www.dasgelbeforum.net/forum_entry.php?id=206881
-http://www.dasgelbeforum.net/forum_entry.php?id=244085
-http://www.dasgelbeforum.net/sammlung/literatur.htm
-http://www.dasgelbeforum.net/sammlung/sammlungen.htm
-http://www.dasgelbeforum.net/search.php?search=Elliott-Grundkurs%2C+Teil&ao=phrase&u_name=-ELLI-
-http://www.dasgelbeforum.net/search.php?search=&ao=and&u_name=-ELLI-
-http://www.dasgelbeforum.net/links/elliott.htm
-http://www.dasgelbeforum.net/ewf2000/forum.php
-http://www.dasgelbeforum.net/forum_entry.php?id=210503
-http://www.dasgelbeforum.net/search.php?show_postings=1886
-http://www.dasgelbeforum.net/forum_entry.php?id=261608
-http://www.dasgelbeforum.net/search.php?search=froschgrafik%3A&ao=and&u_name=frosch
-http://www.dasgelbeforum.net/search.php?search=chart+du+jour&ao=phrase&u_name=HuangJin
-http://www.dasgelbeforum.net/search.php?search=Das+oekonomische+Zitat&ao=phrase&u_name=Zandow
-http://www.dasgelbeforum.net/search.php?search=Rechtschreibung%3A+beliebte+Fehler&ao=and&u_name=Rechtschreibkorrektur
-http://www.dasgelbeforum.net/links/charts.htm
-http://www.dasgelbeforum.net/links/forex.htm
-http://www.dasgelbeforum.net/links/commodities.htm
-http://www.dasgelbeforum.net/links/indices.htm
-http://www.dasgelbeforum.net/ewf2000/forum.php
-http://www.dasgelbeforum.net/sammlung/*
-http://www.dasgelbeforum.net/ewf2000/forum.php?page=0&category=0&order=time
-http://www.dasgelbeforum.net/forum_entry.php?id=425641

Sonst werden alle Links im Menü zigfach mitgeladen, inkl. der Sammlung, was das Datenvolumen unnötig aufbläht. Die Sammlung kann man sich ja aber einmal separat laden. Das reicht doch wohl. [[zwinker]]

Sorry, habe das leider erst jetzt bemerkt...

Gruß
Rybezahl.

--
Dieses Schreiben wurde elektronisch erstellt und enthält deshalb keine Unterschrift.

Wieso nicht einfach die DB verfügbar machen?

tar ⌂ @, Gehinnom, Sonntag, 28.05.2017, 12:10 vor 2497 Tagen @ Griba 2889 Views

Das einfachste wäre, eine Kopie der Datenbank zur Verfügung zu stellen. Dafür aufgrund des Datenschutzes einfach die Passwörter und Mailadressen aller Nutzer resetten. Kann doch nicht so schwer sein?

--
Gruß!™

Time is the school in which we learn,
Time is the fire in which we burn.


BTC: 12aiXGLhHJVETnmGTLbKtAzJNwqh6h6HN4

Werbung

Wandere aus, solange es noch geht.