Omdat we binnen de “Denktank Archief2.0” een discussie hadden over het aanpassen van de weergave-instellingen op het forum, heb ik gisteravond geprobeerd Archief 2.0 te ‘archiveren’. Mijn eerste bevindingen zijn niet verrassend of nieuw, maar toch. Het zelf zien is iets anders dan er over lezen.
Allereerst heb ik gisteren
HTTrack gedownload en omdat ik daar al eens eerder mee had geëxperimenteerd, had ik het redelijk snel aan de praat. (Ik heb nog naar
Heritrix gekeken, de crawler van archive.org, maar die interface zag er nog al onvriendelijk uit).

Maximale Diepte: blanco [dit betekent dat alle pagina’s die beginnen met archief20.ning.com opgeslagen worden]
Maximale externe diepte: 1 [als op een pagina gelinkt wordt naar een site die met iets anders dan archief20.ning.com begint, wordt die pagina ook opgeslagen, maar niet meer de links vanaf die pagina.]
En starten maar…

Anderhalf uur later ben ik gaan slapen. De volgende ochtend, 9,5 uur nadat HTTrack begonnen was, was de spiegeling nog niet gereed. Ondertussen had ik wel al 7.909 bestanden in 6.544 mappen, met een totale omvang van 523MB op mijn harde schijf staan!
En toen ik de spiegeling afbrak, had HTTrack, als ik het goed begrijp, al bijna 2GB aan bestanden geanalyseerd, maar nog niet gedownload. Bij het archiveren van websites gaat het om grote getallen!
Wat zijn de resultaten tot nu toe?
Met de gegevens die ik tot nu toe heb, merk je in veel gevallen niet dat je niet online bent. De look-and-feel zijn hetzelfde en pas als je heel diep in een forum-discussie belandt, krijg je soms een foutmelding, omdat HTTrack die bestanden nog niet heeft opgeslagen. Sommige externe sites kun je zonder problemen benaderen.
Op de startpagina staan aan de rechterkant overigens wel wat foutmeldingen, waar normaal gesproken de Google-advertenties staan, omdat deze dynamisch worden gegenereerd.

Wat kan er niet?
Voorlopig heb ik nog geen video’s binnengehaald en van de foto’s heb ik alleen nog maar de thumbnails. Op de startpagina functioneren de Box-widget en de foto-caroussel niet. Ik weet niet of dit vanzelf nog goed komt of dat dit überhaupt niet kan.
Uiteraard werkt de Ning-zoekfunctionaliteit niet en aanmelden kan natuurlijk ook niet.
En nu?
Vanavond zal ik de “onderbroken download verder doen” in de hoop dat-ie morgenvroeg klaar is. HTTrack biedt ook de mogelijkheid om de bestaande download te updaten, waardoor je alleen de wijzigingen opslaat, dus dit zal ik ook periodiek doen.
En ik ga eens bedenken wat ik nu verder met deze bestanden moet doen. Want opslaan op je harde schijf is nog geen archiveren. Suggesties iemand?
Naschrift: de plaatjes zijn een beetje lelijk, maar ik heb geen tijd om ze aan te passen