Beste lezers,

Het Semantisch Web maakt het mogelijk om data op een technisch en semantisch onafhankelijke manier te publiceren op het Web. Zie laatste archievenblad, en filmpje van Jeroen Trispel. Uiteindelijk is dit de ultieme manier van het Open Erfgoed; beter dan excel.

Maar geloven jullie erin?

Vier antwoorden mogelijk:
(1) ja joh, het is er allang!! We lopen weer eens achter in het archiefwezen! (het "nu"-antwoord)
(2) ja, ik geloof er in, maar het is nog niet rijp. Het zal wel komen en dan is het vroeg genoeg om me er eens in te verdiepen. (het "straks"-antwoord)
(3) nee man, dat wordt toch niks. (het "nooit"-antwoord)
(4) anders, namelijk....

Laat ik mijn mening nog maar even voor me houden :-) Ik denk dat jullie een idee hebben...

Groet,

Ivo.


Weergaven: 53

Hierop reageren

Berichten in deze discussie

Semantisch web werkt op mij als een rode lap op een stier (zoals hier). Ik ga wild snuivend er op af en raak meestal niets. Gelukkig maar.

Mijn mening ten aanzien van semantisch web en de aanwezigheid van archieven op internet in het algemeen is redelijk rechtlijnig en beperkt: laten we nou eerst onze data fatsoenlijk online krijgen. Stapje voor stapje. Op een zo open mogelijke manier zodat iedereen die maar wil daar gebruik van kan maken.

Daarna kunnen we dan met het semantische deel aan de slag gaan. Maar zolang we dit al niet op orde hebben past enige reserve. Het moet niet zo zijn dat we stappen over gaan slaan en straks met een gemankeerde collectie online zitten. Het zgn Portal-model, of de Topstukken-mafia en het Archiefschatten-gilde. Meer van hetzelfde, in meer portals, liefst internationaal. En er is zoveel meer.

Voor het overige, maar dat zal jou niet verbazen Ivo, heb ik geen blind vertrouwen in techniek en dus ook niet in het semantische web. Naar mijn idee en huidige kennis van zaken is dat namelijk vooral een hele technische ontwikkeling die sterk hangt aan allerlei afspraken en thesauri en soortgelijke dingen die erg veel voorkennis vereisen. Of de onnozele bezoeker daar bij gebaat is. Dat weet ik nog niet.
Streven naar het ultieme antwoord op de ultieme vraag. No way José! Dat gaat nooit gebeuren. Daar moet je ook niet naar streven. Vandaar ook mijn reactie bij het filmpje dat Jeroen heeft geupload: I love sloppy and scruffy. Zoals de Digitale Archivaris in de subtitel van zijn weblog heeft staan: Ontdekken is niet alleen het vinden, maar ook het zoeken. Bovendien leveren foute antwoorden soms (verrassende) nieuwe inzichten op.

Perfectie bestaat niet. Ook niet in het semantische web.

Desalniettemin is het een ontwikkeling die ik, op veilige afstand, blijf volgen. Een ontwikkeling die ook zeker niet moet stoppen.

Ben ik dan voor 2 of antwoord ik 4?
Hier nog een twijfelaar tussen 2 en 4. Met die aantekening dat ik nog steeds voel te weinig kennis te hebben van het Semantisch Web om er een echt gefundeerde mening over te hebben. Wat ik erover hoor zijn vooral technische verhandelingen. Ik vertaal dat zelf wel naar iets waar ik warm van wordt, maar waarbij ik wel enkele grote vraagtekens zet.

Wat Luud zegt klopt: juist de onverwachte archiefvondsten en zo doen er vaak toe. We kennen allemaal de voorbeelden daarvan. Maar ik wil ook weer niet omwille van serendipiteit en toevalstreffers de gebreken van onze zoekmachines romantiseren. Het Semantisch Web zou super zijn, als het werkt.

Het concept spreekt me erg aan en bovendien is het technisch haalbaar. Ik betwijfel echter vooralsnog de praktische haalbaarheid van een en ander.

Allereerst hebben we - zoals Luud ook aangeeft - content nodig om het Semantisch Web op los te laten. Onze online data gaan vaak niet verder dan de toegangen, beschrijvingen van stukken. Hooguit hebben we indices. Terwijl de daadwerkelijke vragen die via het Semantisch Web aan ons zouden worden gesteld de informatie in de stukken zelf betreft. Daar zullen we dus eerst keihard aan moeten werken.

En dan moeten die teksten nog gesemantiseerd worden of zo. Als ik echter zie hoe we nu al achterlopen met het op hoog niveau toegankelijk maken van onze bronnen, dan geloof ik niet dat we op heel korte tijd tot op het gewenste, diepe ontsluitingsniveau geraken. Alle eeuwen van hard werken en allerlei schitterende initiatieven van crowdsourcing en zo ten spijt, moeten we constateren dat 99% van onze daadwerkelijke informatie nog steeds gewoon in het depot ligt. Met een scan online kan het Semantisch Web niks en ook een archiefbeschrijving is redelijk zinloos wat dat aangaat.

Verder vraag ik me af wie we er een plezier mee zouden doen. Veel mensen hebben namelijk geen vraag, maar willen gewoon foto's bekijken of verhalen lezen. Misschien bedienen we met het Semantisch Web dus wel alleen die kleine, zelfde groep archiefonderzoekers die we al 'binnen' hebben? Misschien nog wat mensen extra. Is dat de moeite?

Dat even als kritische vragen. Eigenlijk hoop ik door deze discussie - en de reacties op mijn vragen - weer wijzer te worden wat het Semantisch Web aangaat. Het zit in m'n hoofd, maar nog niet in m'n hart. Maar misschien heb ik gewoon geen goed beeld van wat het wérkelijk is en hoe het wérkelijk werkt, hoe het wérkelijk van nut kan zijn en hoe je het wérkelijk bereikt.
We hoeven de discussie die eerder gevoerd is (mij eerlijk gezegd onbekend) niet over te doen. Laten we er praktisch naar kijken en er niet te visionair over doen:

Archiefdiensten hebben al heel veel data in databases vastgelegd met de semantiek die wordt bedoeld bij het SW: in die databases staat namelijk al dat een bepaalde "string" (serie lettertjes achter elkaar), een achternaam is of een voornaam of een wat-dan-ook. Zodra deze data op de website staat zijn deze relaties ("semantiek") voor computers verdwenen. Zij kunnen er dan niets meer mee. Jammer. Gemiste kans. Want computers zijn nu eenmaal slimmer :-) en kunnen dus sneller en meer verbanden leggen tussen de data (en dus heel verrassende vondsten doen (serendipiteit)). Europeana beoogt voor ons veld de computers daarvoor te programmeren, maar iedere techneut kan dat. Zij zullen dat doen op basis van beschikbare data. Als we het overlaten aan de Topstukken-maffia, komen er alleen topstukken in. Tenzij jullie jullie data aanbieden.

Jullie bestaande data (en dat is dus veeeel meer dan je denkt: beeldbank, trefwoordenlijsten/straatnamenlijsten die je daarin gebruikt, genealogische databases, eindeloos veel access bestandjes die helemaal nog niet online staan, en vergeet de folksonomies niet!!) kan allemaal "semantisch" worden gepubliceerd. Dat is geen rocket-science. Laat de rocket-science over aan Europeana, die er iets slims mee wil doen.

@christian, je zegt: "Wat ik erover hoor zijn vooral technische verhandelingen. Ik vertaal dat zelf wel naar iets waar ik warm van wordt, maar waarbij ik wel enkele grote vraagtekens zet." Dat vertalen is goed! Het is precies wat TBL als slotopmerking maakt in het filmpje dat Jeroen heeft bijgedragen: "als het SW geworden is wat ik me erbij heb voorgesteld, dan is het niet goed gegaan!". Met andere woorden: "laat de Christians en Luden van deze wereld iets bedenken met 17e eeuws materiaal: ik ben "maar" computer-nerd [en wat voor een!]. Ik laat me graag verrassen hoe mijn ideeen over het SW worden vertaald naar de praktijk."

@christian: wie we er een plezier mee doen. Iedereen! Weet je nog dat de gebruiker niet via jouw voordeur data komt zoeken? Dat hij gewoon op straat zijn zoekvraag rondschreeuwt? Zou wel handig zijn als hij gerichter antwoord krijgt? Het een sluit het ander overigens niet uit, als je een vaag antwoord wilt, kun je daar een computer natuurlijk ook om vragen...

Sommige data zal semantisch zijn (jullie databases) en sommige data niet (de scans). Over sommige dingen komen we tot gezamenlijke afspraken (mappings, top-ontologieen) en over sommige niet (eigen datastructuur, voor uniek archiefmateriaal). Betekent dat dat we maar helemaal geen structuur meer aanbrengen in de data? Voor die dingen waar we wel afspraken over kunnen maken, is het toch winst? Het ultieme antwoord op de ultieme vraag is ook helemaal niet de bedoeling. Eventueel kan kunstmatige intelligentie (moeilijk woord voor statistiek en patroonherkenning) worden ingezet om dingen te "semantiseren". Denk aan SCRATCH.

Nou, ik hoop dat de vragen een beetje zijn beantwoord en het SW al richting hart schuift. Het schijnt nu tijd voor voetbal te zijn :-)

Groet,

Ivo.
@Ivo
Net nog eens jouw artikel in het Archievenblad gelezen over ditzelfde onderwerp.

Ik snap het nog steeds niet. De computer moet geprogrammeerd worden? Of bedoel je daarmee dat de data anders geprogrammeerd moet zijn? Is het hele semantische web zo afhankelijk van enkele projecten die de triples gaan realiseren, samenstellen, de ontologielijsten gaan maken?

Als die data in triples is opgeknipt, kan dan elke zoekmachine het op die manier vinden, of moeten we dan op zoek naar bepaalde zoekinterfaces, en verliezen we daarmee de brede toegankelijkheid via Google?

Is EAD een dataformat dat triples maken makkelijker maakt?

Jij stelt het als erg eenvoudig voor, die omschakeling. Maar kunnen wij als archieven al gebruik maken van bekende triples voor de informatie die wij beheren, zoals persoonsinformatie? Is aansluiting bij Europeana dan noodzakelijk of kan dat ook op een andere manier.

En zo nog wat meer.
@Luud: jammer dat het niet duidelijk is geworden. Misschien krijgen we een keer de kans om het met een whiteboard of flipover samen uit te werken. Antwoord op je vragen zal ik hier wel alvast proberen te geven, ook om andere lezers te helpen. Ik hoop vooral dat deze discussie jou en andere lezers niet ontmoedigt...

(1) je wilt structuur

Als je computers niet programmeert doen ze niets. Je kunt data wel als CSV aanbieden (zoals ik graag zie), maar als er geen software is die de data kan lezen, zoekvragen op kan loslaten, kortom de *functionaliteit* realiseert, heb je er niets aan. Software kan meer met data die gestructureerd wordt aangeboden dan met data die niet of minder gestructureerd wordt aangeboden. Structuur kan nog wel gegokt worden (dat is wat Google voortdurend doet), maarruh... "gokken is dokken" (aldus blauwdrukdenkers, zegt De Caluwe. En dat is waar, als je eens wist hoeveel opslag- en rekencapaciteit Google nodig heeft om dat gokken zo goed te kunnen doen als ze doen).

Structuur is dus fijn en met EAD (XML) hebben we meer structuur dan we hadden. Deze kan relatief eenvoudig omgezet worden naar RDF. Tenminste dat deel van de archiefinformatie die zich hiervoor leent. Ik heb hiermee geexperimenteerd nav deze discussie.

(2) je wilt structuur op een manier vastgelegd die iedere computerprogrammeur makkelijk kan gebruiken

Hoe gemakkelijker en platformonafhankelijker de data is, hoe gemakkelijker de benodigde software kan worden ontwikkeld. Als het ook nog eens overal beschikbaar is omdat het online is, worden we nog blijer! Het SW is daarin nu de ultieme ontwikkeling: eerst hadden we typemachines, toen Word, toen XML en nu RDF. Het bouwt allemaal op elkaar voort en biedt steeds meer structuur en toegang tot informatie.

(3) je wilt dezelfde structuur als de buurman. Of toch niet?

Het is handig als je kunt aansluiten bij een bestaande structuur-definitie (bv. veldnamen). Dat maakt het leven wel aanzienlijk makkelijker maken. Het fijne van het SW is dat het niet *moet*. Als jouw domein een andere structuur noodzakelijk maakt, maak je je eigen structuur en geef je aan waar jouw structuur overeenkomt met de structuur van een ander. Je kunt dan bijvoorbeld in een internationale context aangeven dat een "tussenvoegsel" in de Nederlandse namen iets is dat ondereel uitmaakt van de achternaam, maar dat ordening plaatsvindt op het andere onderdeel van de achternaam. We hoeven dus niet de hele wereld meer hetzelfde te maken, maar we kunnen onze eigen stopcontacten houden en verloopstekkers gebruiken.

(4) en nu doen!

Als niemand data gestructureerd gaat aanbieden, gaat er niemand programmeren om iets met die data te doen. En als er niemand programmeert om iets met die data te doen, heeft het geen zin die data aan te bieden. Klassieke kip-en-ei situatie (mijn zoontje (4 jr) gaat overigens voor de kip...). Wie doorbreekt de cirkel? Het lijkt er op dat Europeana dat gaat doen: zij gaan software ontwikkelen, zodat jij straks geneigd bent je data op deze manier aan te bieden.

Ik verwacht dat Google deze technieken op termijn ook gaat inzetten om haar zoekresultaten te verbeteren. Er zal altijd een boel niet- of minder gestructureerde data blijven, dus het gokken blijft (voor de witdrukdenkers onder u), maar anderen kunnen dan gebruik maken van gespecialiseerde oplossingen, bv om heel gericht personen te vinden.

Hopelijk heb ik je vragen een beetje kunnen beantwoorden.

Zal ik eens zeggen wat mijn keuze is (we begonnen immers met een meerkeuze vraag)? 2. Behalve dan dat ik me er wel alvast in verdiep omdat ik denk dat als ik dat niet doe en ik het niet aan andere ga uitleggen de overgang niet gaat gebeuren (jawel ik ben groendrukdenker). En dat zou een gemiste kans zijn.

Groet,

Ivo
@Ivo
Ik wil best een bijeenkomst organiseren waar jij voor geïnteresseerden uitlegt hoe de vork in de steel zit en waar we lekker met ons allen in discussie kunnen gaan.

Als er meer liefhebbers voor iets dergelijks zijn, dan hoor ik het graag.
Ik zie een soort speel-en-deelsessie voor me, maar dan anders. Lijkt me in ieder geval goed om eens een ochtendje/middagje hierover te hebben. Het Semantisch Web voor Jip en Janneke of zoiets.

@Ivo: Dank voor al je uitleg. Dit onderwerp moeten we inderdaad eens naar RL verplaatsen, vooraleer we hier hele essays uitwisselen. Archievenblad en Archief 2.0 schieten hier beide tekort. ;-)

Ik denk dat we het er allemaal over eens zijn dat dit topic machtig interessant is en legio kansen biedt. Maar dat het aantal vragen erover nog even overheerst.
@Ivo: ik ben zeer in voor een sessie, helemaal als die praktisch van opzet & aard is. Count me in dus!
@Ivo @Luud ik ben ook geïnteresseerd in een RL-sessie. Leuk!
Ik raak hoe langer hoe meer geprikkeld door dit onderwerp!! Wat zouden jullier ervan vinden om begin september een speel & deelsessie op te zetten over dit onderwerp? Ik bied graag onze hulp en ruimte aan! Die is weliswaar alleen op maandag beschikbaar, maar dat schijnt voor veel mensen een prima sessiedag te zijn. Wie wil meedenken over een opzet voor een dag(deel)?
@Joost
Ik wil wel meedenken. En het kan ook bij ons als het moet, maar Nijmegen is net zo goed. Voor Ivo maakt het niet uit, die moet toch een heel eind reizen :)
@Luud Ik begrijp dat Joost in Arnhem werkt. Ook wel eens leuk om naar toe te gaan, want voor mij al weer veel te lang geleden dat ik daar geweest ben. Tilburg lijkt me overigens voor Lineke weer makkelijker bereikbaar.

@Joost Begin september is prima. Gaan we online een datum prikken? Ik kan nog alle maandagen muv de laatste maandag van september.

Hoe wordt een speel- en deelsessie meestal ingericht? Zelf zou ik een aantal concrete, publieksgerichte scenario's in de grondverf kunnen zetten, waarmee de mogelijkheid van het SW wordt gedemonstreerd en waarmee we laten zien hoe je de publicatie van triples kunt realiseren.

Antwoorden op discussie

RSS