Omdat we binnen de “Denktank Archief2.0” een discussie hadden over het aanpassen van de weergave-instellingen op het forum, heb ik gisteravond geprobeerd Archief 2.0 te ‘archiveren’. Mijn eerste bevindingen zijn niet verrassend of nieuw, maar toch. Het zelf zien is iets anders dan er over lezen.

Allereerst heb ik gisteren HTTrack gedownload en omdat ik daar al eens eerder mee had geëxperimenteerd, had ik het redelijk snel aan de praat. (Ik heb nog naar Heritrix gekeken, de crawler van archive.org, maar die interface zag er nog al onvriendelijk uit).


Maximale Diepte: blanco [dit betekent dat alle pagina’s die beginnen met archief20.ning.com opgeslagen worden]
Maximale externe diepte: 1 [als op een pagina gelinkt wordt naar een site die met iets anders dan archief20.ning.com begint, wordt die pagina ook opgeslagen, maar niet meer de links vanaf die pagina.]

En starten maar…


Anderhalf uur later ben ik gaan slapen. De volgende ochtend, 9,5 uur nadat HTTrack begonnen was, was de spiegeling nog niet gereed. Ondertussen had ik wel al 7.909 bestanden in 6.544 mappen, met een totale omvang van 523MB op mijn harde schijf staan!
En toen ik de spiegeling afbrak, had HTTrack, als ik het goed begrijp, al bijna 2GB aan bestanden geanalyseerd, maar nog niet gedownload. Bij het archiveren van websites gaat het om grote getallen!

Wat zijn de resultaten tot nu toe?
Met de gegevens die ik tot nu toe heb, merk je in veel gevallen niet dat je niet online bent. De look-and-feel zijn hetzelfde en pas als je heel diep in een forum-discussie belandt, krijg je soms een foutmelding, omdat HTTrack die bestanden nog niet heeft opgeslagen. Sommige externe sites kun je zonder problemen benaderen.
Op de startpagina staan aan de rechterkant overigens wel wat foutmeldingen, waar normaal gesproken de Google-advertenties staan, omdat deze dynamisch worden gegenereerd.


Wat kan er niet?
Voorlopig heb ik nog geen video’s binnengehaald en van de foto’s heb ik alleen nog maar de thumbnails. Op de startpagina functioneren de Box-widget en de foto-caroussel niet. Ik weet niet of dit vanzelf nog goed komt of dat dit überhaupt niet kan.
Uiteraard werkt de Ning-zoekfunctionaliteit niet en aanmelden kan natuurlijk ook niet.

En nu?
Vanavond zal ik de “onderbroken download verder doen” in de hoop dat-ie morgenvroeg klaar is. HTTrack biedt ook de mogelijkheid om de bestaande download te updaten, waardoor je alleen de wijzigingen opslaat, dus dit zal ik ook periodiek doen.

En ik ga eens bedenken wat ik nu verder met deze bestanden moet doen. Want opslaan op je harde schijf is nog geen archiveren. Suggesties iemand?

Naschrift: de plaatjes zijn een beetje lelijk, maar ik heb geen tijd om ze aan te passen

Weergaven: 385

Berichten in deze discussie

Mooi, Ingmar! De plaatjes zijn trouwens prima hoor.

Die Box-widget zal wel niet werken omdat dit functionaliteit is die live als widget vanf Box.net wordt gegenereerd. Voor de fotocaroussel geldt misschien ook zoiets.

Het wordt een aardige berg aan bytes op deze manier... ;-) Toch al gauw wat dvd'tjes.

Kun je filteren op bestanden? Geen bestanden groter dan X mb of van een bepaald type, of die linken naar bepaalde sites (YouTube, Vimeo enzovoort), zodat je bijvoorbeeld video's kunt uitsluiten?

Wat gebeurt er trouwens met de sidebar widgets, zoals de rss feeds naar al die externe blogs?

In de titel van je post zit het woord "community". Nou staan onze video's op Vimeo, we hebben tweets, e-mails, foto's op Flickr, een Netvibes Universe enzovoort. Dat alles vormt uitindelijk de 'community', met alle daarbijbehorende content, een soort van verspreid over het internet. Omdat een en ander stevig naar mekaar doorlinkt, moet je dus ook weer dubbeling voorkomen.

Lastige materie hoor!

Trouwens, wonderlijk dat er dit soort programma's zijn joh. Had er nog nooit van gehoord! Nooit naar gezocht ook.
Klopt dat wel van die 2 Gb, ik kan me dat bijna niet voorstellen. Weet je zeker dat je alleen archief20.ning.com naar binnen trekt, en niet heel ning.com? (in te stellen in het tabblad 'filters'). Het lijkt mij stug dat de berichten die we met z'n allen erop hebben gezet die omvang rechtvaardigen.
Zelf gebruik ik ook weleens HTtrack om de gegevens van een website veilig te stellen, het is altijd weer even prutsen in het tabblad 'filters' met welke bestandsformaten wel en niet meegenomen moeten worden, max. diepte etc, maar verder een prima tool.
In het tabblad 'links' kun je trouwens ook aangeven dat eerst alle HTML pagina's binnengehaald moeten worden.
Ik weet het niet. HTTrack loopt weer. Ik wil eigenlijk wachten tot-ie klaar helemaal klaar is en dan bekijken waar die omvang vandaan komt. (En kijken hoe ik moet gaan prutsen...) Wordt vervolgd
Zo zag het vanmorgen uit:


Ik geloof niet dat ik heel Ning aan het opslaan ben. Het probleem is waarschijnlijk dat een groot deel van de berichten verwijst naar andere sites. Ik heb ingesteld dat ik ook de site wil hebben waar naar verwezen wordt. Dit lijkt me ook nodig, omdat anders waarschijnlijk in veel gevallen helemaal niet duidelijk is waar de teksten op forum of weblog over gaan...

En toen ik de spiegeling annuleerde (moet naar kantoor) verscheen de volgende onbegrijpelijke melding:


Ik heb maar "Nee" geklikt.
Ik snap inderdaad dat je graag de context mee archiveert, maar is dit niet een beetje hetzelfde als een papieren archief, waarbij je kopietjes voegt van alle brieven, notulen, rekeningen enzovoort uit andere archieven, waarnaar verwezen wordt vanuit jouw archief?

Feitelijk ben je nu iets aan het archiveren wat eigenlijk door iemand anders gearchiveerd zou moeten worden, toch?
Christian, je hebt wel gelijk maar daar heb je niets aan, tenzij je zeker weet dat alle partijen waarnaar gelinkt wordt hun archivering op orde hebben: youtube, twitter, slideshare, wordpress, blogger etc. Helemaal niet zo'n gek idee om alles waarnaar gelinkt wordt mee te nemen in je HTtrack kopie, denk ik.
1. Ik interpreteer die verwijzingen meer als 'bijlagen'. Wanneer in een papieren document staat: "Zie bijlage 5 voor de uitleg van dit plaatje", dan bewaren de bijlage toch ook, ook al is het een los boekje? De bijlage maakt onlosmakelijk deel uit van het te bewaren document.
2. In het verlengde van wat Albert zegt: in de papieren situatie moet bijvoorbeeld de provincie iets vinden over de bestemmingsplannen van de gemeente. Volgens mij is er geen enkele provincie die er dan op vertrouwt dat die gemeenten zijn bestemmingsplannen goed genoeg archiveert. Al die plannen worden ook nog bij de provincie bewaard.
OK 40 uur downloaden, 1,3 GB, 6.771 bestanden en 9.745 mappen verder heb ik HTTrack maar gestopt.
Ik ga het nu eerst maar eens zonder externe links proberen (ondanks de principiële bezwaren van volledigheid en context)
Voor de liefhebber: hier een csv-bestandje met alle bestanden die ik in deze "fishing expedition" heb binnen gehaald.
Bijlagen:
Christian,
jij hoeft jouw blog niet zelf meer te archiveren, dat heeft Ingmar al gedaan. Ik kwam exact 517 x iets als: "d:\data\websites\archief20\digitalearchivaeis.blogspot.com\feeds\blabla" tegen in het .csv file...
En dan te bedenken dat ik maar krap meer dan 300 berichten op m'n blog heb staan... ;-)

Dan daarbij: ik archiveer m'n blog al regelmatig zelf, keurig naar xml-bestandjes.
Kan kloppen, elke reactie op een blogbericht van jou dat wordt gearchiveerd wordt apart opgeslagen, lijkt het als je naar het .csv bestand kijkt..

RSS

Zoeken in Archief 2.0

Loading

© 2017   Gemaakt door Archief 2.0.   Verzorgd door

Banners  |  Een probleem rapporteren?  |  Algemene voorwaarden