Zijn tweets archiefstukken?
Ik denk het wel. Ze hoeven misschien niet allemaal eeuwig bewaard te blijven, maar de berichten van ministers, gedeputeerden, raadsleden, Tweede Kamerleden en ambtenaren geven een beeld van de manier waarop de overheid rond deze tijd communiceerde. En, de verzenders kunnen aangesproken worden op uitlatingen die zij via Twitter gedaan hebben. (Zie bijvoorbeeld de discussie die ontstond naar aanleiding van de foto uit de Ministerraad die Verhagen maakte. Of de consternatie die ontstond naar aanleiding van de niet zo diplomatieke opmerkingen van Boekestijn over Chinezen.)

Stel nu dat je de tweets van gedeputeerde Hoes of minister Verhagen wil archiveren, hoe doe je dat dan? En welke problemen moeten nog opgelost worden?

Laat ik voor het gemak even uitgaan van mijn eigen tweets.
Om te beginnen zijn er enkele websites / programmaatjes die je in staat stellen om je eigen tweets te bewaren. Tweetake en Tweetdumpr zijn het simpelst.
Met Tweetake kun je periodiek een export maken van al je eigen tweets, je ontvangen direct messages (vreemd genoeg niet je verzonden berichten), je friends (de mensen die jij volgt), je followers (de mensen die jou volgen) en je ‘favoriete’ tweets. Nadat je je Twitternaam en wachtwoord hebt ingevuld, maakt Tweetake een simpel csv-bestand, waarin de tweets zijn aangevuld met allerlei metadata: naam, schermnaam, id, avatar, website, datum. (In het hierbij gevoegde voorbeeldbestandje heb ik de direct-messages overigens handmatig verwijderd.)
Nadeel is echter dat je met Tweetake maximaal de 1.000 meest recente berichten kunt opslaan. Oudere berichten neemt-ie niet mee.
Tweetdumpr werkt ongeveer hetzelfde, al heb je hierbij genoeg aan een Twitternaam en hoef je het wachtwoord niet te kennen. Je kunt hiermee dus ook andermans tweets integraal downloaden. Helaas is Tweetdumpr in zoverre beperkt, dat het tekstbestandje alleen tweets, zonder nadere metadata, bevat. Het lijkt er trouwens op dat ook Tweetdumpr niet alle berichtjes download. De ‘dump’ van MaximeVerhagen in het voorbeeld leverde 3230 berichten, terwijl Twitter er op hetzelfde moment 3735 telt.

Als je het dus regelmatig doet, lijken deze applicaties voor het bewaren van ‘eigen’ tweets een mooie oplossing, aangezien platte tekstbestandjes redelijk makkelijk te archiveren zijn. In verband met de meegeleverde metadata heb ik een voorkeur voor Tweetake.

Maar, zijn we er nu al? Je hebt nu toch alleen de inhoud? Moeten we niet ook nog nadenken over de context van de tweets, over structuur en vorm?

Om met dat laatste te beginnen. Ik denk dat je gerust kunt stellen dat de vorm zo divers kan zijn, dat je die over het hoofd kunt zien. Als ik naar mezelf kijk, ik lees en schrijf tweets op dit moment via vier verschillende applicaties: Twittergadget, Twitter.com, Twhirl en Tweetdeck. Alle interfaces zien er anders uit en op mijn (toekomstige) Blackberry zal het er weer anders uitzien. Daarom stel ik me tevreden met enkel de inhoud van de tweets.
(Overigens, het zou wel mooi zijn als Tweetake ook het medium waarmee de tweet verzonden is, zou weergeven, zoals in ieder geval Twitter.com en Twhirl dat ook doen).

Structuur en context vind ik spannender. Met Tweetake kan ik wel opslaan wie ik allemaal volg, maar hun berichten kan ik niet downloaden. Ik kan de ‘timeline’ zoals ik die in Twittergadget of op Twitter.com kan zien, niet bewaren. Terwijl dit wel relevant kan zijn voor de berichten die ik verstuur. Je ziet in ‘mijn’ archief wel dat ik iemand een antwoord stuur of een vraag stel, maar de berichten daar om heen (vraag of antwoord) zijn er niet. Alsof je in je archief alleen je eigen verzonden brieven bewaart.

Is dat simpel op te lossen?
Misschien zou je met de beschikbare rss-feed de timeline kunnen herstellen, maar de feed lijkt maar heel korte tijd terug te gaan. Twittersearch is ook geen oplossing voor de replies, aangezien de zoekresultaten beperkt zijn tot de laatste paar maanden. Kijk maar, dit bericht is met Twittersearch niet te vinden.
(Twickie leek veelbelovend, maar volgens mij kan ik hier alleen reacties op individuele tweets zoeken. Dat is een beetje omslachtig.)
Misschien is het mogelijk om met de Twitter-api iets te doen. Deze wordt waarschijnlijk ook gebruikt door Tweetake, maar ik heb nog niet echt iets gevonden. Vooralsnog acht ik mezelf ook niet techneut genoeg om dit op te lossen.

Een ander context-probleem leveren de tweets die bijvoorbeeld tijdens een conferentie verstuurd worden. Eigenlijk zijn deze alleen te begrijpen als je tegelijkertijd de betreffende presentaties kunt zien. Het synchroon laten lopen van tweets en opgenomen presentaties, lijkt me dan nog een hele uitdaging.

En dan is er ook nog het ‘normale’ probleem van het archiveren van webpagina’s: wat doe je met de links? Dit wordt bij het archiveren van tweets nog iets ingewikkelder, omdat in de meeste gevallen de url’s verkort worden door diensten als is.gd, tinyurl.com of bit.ly. Dit betekent dat je om in de toekomst een link te kunnen volgen, ook het algoritme moet kennen waar de url mee is versleuteld.

Tenslotte ga ik hier ook voorbij aan eventuele juridische bezwaren (bijvoorbeeld de Auteurswet) tegen het archiveren van andermans tweets.

Kortom, er zijn al een paar, praktische, simpele manieren om een deel van het Twitterarchief van Verhagen en Hoes te archiveren. Voor een volledig archief moet nog wat werk verzet worden.

Is er iemand die deze uitdaging aanneemt? Ik stel mijn account wel beschikbaar voor tests.

Met dank aan @mopennock’s Archiving twitter.

Weergaven: 1584

Bijlagen:

Berichten in deze discussie

Interessante discussie!

Je schreef:
Dit wordt bij het archiveren van tweets nog iets ingewikkelder, omdat in de meeste gevallen de url’s verkort worden door diensten als is.gd, tinyurl.com of bit.ly. Dit betekent dat je om in de toekomst een link te kunnen volgen, ook het algoritme moet kennen waar de url mee is versleuteld.

Er IS geen algoritme voor het genereren van een korte URL. De sleutels worden random gegenereerd en de websites hebben gewoon een database met paren van sleutel -> lange URL. Bij tinyurl kun je bijvoorbeeld ook zelf je korte URL kiezen (mits beschikbaar). Je zult dus op het moment van archiveren de link weer moeten expanderen, of tenminste in de metadata moeten vastleggen welke link het was.

Een relatief simpel te reconstrueren context is de 'in reply to'. In theorie is het mogelijk om via het volgen van de 'in reply to' links een boom op te bouwen van de hele discussie. Uiteraard gaat het alleen op als mensen netjes de reply-knop gebruiken en niet gewoon met @huppeldepup inhaken op een eerdere tweet. Minister Verhagen doet dat gelukkig wel netjes!

Dat je tweets niet kunt snappen zonder de conferentie te volgen is misschien wel zo, maar is dat bij heel veel archiefstukken niet het geval? Als ik een ingekomen brief lees uit 1648 van iemand die bij de vredesonderhandelingen in Munster was zal ik toch ook in andere archieven moeten duiken om een compleet beeld te krijgen? De vraag is dan waar de taak van de archivaris ophoudt en die van de onderzoeker begint.

Een ander aspect zijn de plaatjes. Zoals je terecht opmerkt was er nogal wat commotie over de foto vanuit de Treveszaal. Die stond echter niet op Twitter maar op Twitpic als ik het goed heb. Om zo'n Tweet te snappen moet je ook de foto op Twitpic gaan archiveren...

Deze discussie gaat hopelijk ook een eyeopener zijn voor collega-archiefmedewerkers die nog niet snappen waarom 23 archiefdingen nuttig gaat zijn. Dit is een mooi voorbeeld dat kennis over web2.0 niet alleen gaat om nieuwe manieren om je publiek te bereiken maar ook om je collectie te vormen.
@Yvette: Dank voor de verhelderingen (oa over de verkorte URL's ik had hier verder nog niet naar gekeken en wist dus niet dat het gewoon om een database gaat).
Wat Twitpic aangaat: in feite is dit het 'gewone' linken probleem.
Wat de replies van Verhagen betreft: ik zie de laatste tijd ook steeds meer dat hij achteraan @... zet.

Maar wat ik me eigenlijk afvraag, gaat over jouw laatste zinnetje:

Dit is een mooi voorbeeld dat kennis over web2.0 niet alleen gaat om nieuwe manieren om je publiek te bereiken maar ook om je collectie te vormen.

Volgens mij is het in het voorbeeld van Verhagen of Hoes in eerste instantie de taak van ministerie en provincie om de berichten te archiveren.
Ik bedoel dit niet vervelend, maar waarom zou de archiefdienst hier al een taak hebben?
Of ben ik nu ouderwets?
Een heel interessante discussie die je hier opstart, Ingmar. Kan ik je alleen maar voor bedanken. Ik moet je bijdrage wel nog even laten bezinken om daar een antwoord, die naam waardig, op te bieden. Ik sluit me voorlopig al aan bij de reactie van Yvette en ook bij haar laatste zin, waar jij vraagtekens bijplaatst.

Een archief kan wel degelijk als taak hebben om tweets van ministers of andere politici, al dan niet in mandaat, te archiveren. Daarom ben je nog niet Ingmar, maar alles is afhankelijk van de aard van archiefinstellingen. Een archief als het ADVN, die zich qua collectieprofiel richt op een nationale beweging en de politieke emanatie daarvan, heeft volgens mij wel als taak om de tweets van een Vlaams-nationaal politicus als Bart De Wever (mocht hij dat al doen) te archiveren. Nu is De Wever geen politicus met een ministerportefeuille of een ander uitvoerend politiek mandaat. Maar iemand als Vlaams minister van Cultuur Bert Anciaux, die ondanks zijn vele partijwissels nog steeds een Vlaams-nationaal politicus blijft, heeft wel een kabinet. Maar ik betwijfel zeer of in die administratie zijn (eventuele) tweets gearchiveerd worden. Als dit voor zijn blog niet gebeurd, zal dit voor zijn tweets evenmin gebeuren. Het is namelijk nogal wazig (hier in Vlaanderen hebben we bij mijn weten daar nog geen regeling over) of het archiveren van een persoonlijke weblog of Twitter-pagina met een mengeling van persoonlijke berichten, berichten in het kader van zijn functie als partijpoliticus die verkiezingscampagne voert en berichten in het kader van zijn ministeriële functie tot het takenpakket van zijn kabinetsadministratie hoort. Voor een archief als het onze is het echter van belang dat deze berichten wel bewaard blijven. Ze maken namelijk deel uit van een persoon die als voormalig voorzitter van de Volksunie en spilfiguur in de restanten SPIRIT en Vlaams Progressieven een belangrijke rol speelde in de recente geschiedenis van de Vlaamse beweging.

Moeten we dus die tweets en andere web 2.0-uitingen verloren laten gaan omdat het takenpakket van de administratie (vermoedelijk) beperkt is tot het archiveren van de website van het eigen kabinet? Ik dacht het niet. Op www.bertanciaux.be (persoonlijke blog) zal een toekomstig onderzoeker waarschijnlijk veel relevanter informatie vinden dan op de door de administratie gearchiveerde www.ministeranciaux.be (kabinetswebsite). Maar dat is dan weer een persoonlijk aanvoelen...
Vandaag op de radio gehoord. Je tweets uitprinten, of op hashtag, of alles van al je vrienden...
Je kunt de pagina's ook opslaan en zo bewaren ipv printen.

Nederlandse jongen heeft dit bedacht en het loopt pas een paar weken.

http://printyourtwitter.com/
Ziet er mooi uit:

Je eigen timeline, alleen tweets van specifieke vrienden en, heel mooi, de Twitpics worden weergegeven.
Enkele minpunten / vraagtekens:
Je kunt maximaal 3200 tweets in een keer opvragen, maar in mijn geval krijg ik maar 800 tweets en de oudste is van 3 dagen geleden (20 mei 2009). Het is mij niet helemaal duidelijk wat, hoe of waarom...
Ander probleem is dat toen ik het opgeslagen html-bestand wilde openen, Firefox helemaal op hol sloeg... Waarschijnlijk door het Java-scriptje?

Daarom in de bijlage mijn 'print' als pdf-bestandje.

Veelbelovend, maar ik twijfel nog een beetje, zie ook de weblog van de ontwikkelaar.
Bijlagen:
Aangezien je de programmeur te pakken hebt, kun je die vraag heel simpel bij hem neerleggen. Voor je het weet heb je een killer-app voor het probleem gevonden. Heb je wat leuks te vertellen straks in Kopenhagen :-)
De vraag van de volledigheid van het overzicht van tweets zou wel eens niet aan PrintYourTwitter kunnen liggen, maar aan Twitter zelf:

Twitter's Search Engine Is Very, Very, Broken
http://www.louisgray.com/live/2009/05/twitter-search-engine-is-very...

Given all the rumors about Google possibly talking to Twitter about search, or the Mountain View giant taking on the world of real-time, you would think that Twitter's dramatic growth and user adoption would see the microblogging company sitting on a gold mine of a database, as it amasses tweets from around the world and makes them searchable through the search.twitter.com product (formerly Summize). But it appears that the considerable expansion of the company's user base has led to strain on its index, rendering practically anything beyond realtime analysis completely useless, fraught with missing data and error pages.

The promise of Twitter's advanced search capability is tremendous - letting you dice your queries by the sender and recipient, and even limiting the date range for said tweets, the location, hashtags or even emoticons. And at one time, it was a valuable resource. Now, depending on which account you're viewing, the data set could be as small as a week, or oddly, in some cases, not available at all.
Lees verder...

De afhankelijkheid van "anderen" versterkt mijn gevoel dat een archiefvormer zelf web2.0-content moet archiveren. Offline. (Zie ook: http://archief20.ning.com/forum/topics/archief20-en-die-andere)
En wie weet wel met printyourtwitter.
bron: Information Week 28 mei 2009

Government Wrestles With Social Media Records Retention Policies

The National Archives is trying to navigate complex regulations that require capturing and storing all sorts of content in the age of social media, cloud computing, and seemingly endless storage.
De afgelopen weken heb ik nog een paar dingen uitgeprobeerd:

The Archivist
The Archivist is een simpel werkend programmaatje van Mix Online (dat ik eerst niet werkend kreeg, maar de nieuwe versie die ik nu heb werkt wel).
Je typt een zoekterm in en The Archivist gaat zoeken met behulp van TwitterSearch. Zolang je het programma open hebt, wordt de zoekopdracht iedere 10 minuten herhaald. Het programma heeft een paar sterke punten:
1. Je kunt de verzamelde tweets exporteren als xml-file (zie beneden voor een Maxime Verhagen voorbeeld). En het mooie is, als je dit bestand later opnieuw opent, zoekt het programma automatisch de laatste tweets en voegt die er aan toe.
2. Je kunt een grafiek maken van de tweets. (Geen idee waar dit handig voor zou kunnen zijn, maar het kan...)
3. Mocht je echt niet met xml uit de voeten kunnen, dan kun je de tweets ook nog exporteren naar Excel.

Nadeel van dit programma is ook dat het dus geen volledige 'timeline' van iemand oplevert. Al kom je wel een heel eind. De zoekopdracht "MaximeVerhagen" levert niet alleen alle berichten van de Minister, maar ook alle berichten @MaximeVerhagen. De 'dialoog' wordt dus in ieder geval opgeslagen, zonder dat je het wachtwoord van Verhagen nodig hebt.

Tweet Backup
Tweet Backup is ook charmant in zijn eenvoud. Zoals de naam zegt, het is een back-up service. Je logt in met je twitternaam en wachtwoord en Tweet Backup verzamelt alle tweets en blijft dat periodiek (ik schat één keer per dag) doen. De opgeslagen tweets kun je daarna exporteren als rss, txt of html bestand. Die laatste heb ik hier als voorbeeld bijgevoegd.
Er is nog een addertje onder het gras en dat is dat je maar 3200 berichten kunt opslaan. Maar ik weet niet precies wat dat betekent. Als je nu meer tweets dan 3200 hebt verstuurd, worden dan bij de eerste keer opslaan alleen de laatsten bewaard? Of verdwijnen de eersten altijd als je boven de 3200 uitkomt? Dan moet je dus tijdig exporteren.

Groot minpunt van TweetBackup is dat je echt alleen de tweets van je eigen account kunt opslaan. Je krijgt er geen context bij.

Voorlopige conclusie
Een combinatie van Tweetake en The Archivist levert mooie dingen op, maar geen echte timeline.
Printmytwitter (dat hier beneden ook genoemd staat) kan hier wel voor zorgen, maar de 'output-mogelijkheden' daarvan zijn weer wat beperkt (en leveren mij om de haverklap foutmeldingen...)
Bijlagen:
A workable solution?

Hierna een rapport over het archiveren van Twitter, afkomstig van The Center for Research Libraries, te Chicago.
Zie over het project Web Ecology Project (WEP) : http://www.webecologyproject.org./

"Fortunately, the Web Ecology Project has devised a workable solution for harvesting Twitter tweets.
By using readily available server technologies, working with Twitter’s established access and data sharing policies, and drawing on the skills of trained programmers, the research team at the WEP collects, stores, and archives massive numbers of Twitter tweets.
Their tweet-harvesting set-up is straight forward and can potentially be implemented by any organization wishing to gather similar materials from Twitter, as long as they have access to a programmer who can help manage the process.

(...)
Bijlagen:

RSS

Zoeken in Archief 2.0

Loading

© 2016   Gemaakt door Archief 2.0.   Verzorgd door

Banners  |  Een probleem rapporteren?  |  Algemene voorwaarden