Standaarden en authority-files: wie wil zijn/haar kennis & ervaring delen?

Onderstaande discussie heb ik net in de groep Web 3.0 Semantisch web gepost, maar de vragen die ik stel zou ik graag breder onder de aandacht willen brengen.

 

Standaarden en authority-files spelen een belangrijke rol in de vormgeving van het semantisch web (zie ook het verslag van Saskia Giesbers over de speel- en deelsessie).

 

Standaarden zijn echter ook notoire discussiepunten als het gaat om bruikbaarheid, subjectiviteit enz. Allemaal redenen om ze vooral niet te gebruiken of er nog langer aan te werken om ze perfect te maken (iets wat ze denk ik nooit zullen worden).

Vervolgens is het idee om iets anders (dan voorheen) te gaan doen accuut belemmerd door het fenomeen achterstanden: dat hebben we nooit zo (of nooit goed) gedaan, dus dat geeft alleen maar goede resultaten als we alles volgens een standaard doen. Dat betekent de hele collectie standaardiseren.

 

Ik zou daar graag eens voor de vorm overheenstappen en beweren dat waar je niet aan begint er nooit zal komen. Dat geldt voor het gebruik van standaarden en daarmee ook voor een belangrijk middel om je collectie via het semantisch web te verrijken en te delen met anderen.

Waarom niet gewoon proberen of die nieuwe inventaris of die nieuwe toegang niet ook in EAD te beschrijven valt? Je archiefvormer beschrijven cinform ISAD of ISAAR?

 

En als er standaarden zijn waarover lang en goed is nagedacht, waarom zijn er dan toch zo weinig diensten waar standaarden worden gebruikt (of is mijn blik daarop te beperkt?)? Zijn het slechte standaarden? Blijven ze steken in theorie en zijn ze in de praktijk onbruikbaar?

 

Daarom mijn tweeledige vraag:

- wie heeft er ervaring met het gebruik van standaarden voor archiefbeschrijving en zou die hier ter plekke willen delen? Welke standaard gebruik je en waar loop je in het gebruik tegenaan?

- ken je bruikbare (internationale, landelijke, provinciale, regionale, lokale) authority-files die dusdanig sterk (en cool, dwz permalinks dus) zijn dat je ze absoluut zou moeten gebruiken om aan te linken als je triples wil gaan bouwen?

 

Oftewel: niet "waarom zouden we dit eigenlijk doen", maar "hoe zorgen we ervoor dat we gaan uitproberen of het iets is dat werkt en nieuwe wegen opent?". Ik ben vooral nieuwsgierig en zou met deze aanzet graag een beweging op gang willen brengen waarmee:

- die mensen die er iets in zien om het semantsich web als serieuze optie te onderzoeken een plek hebben om kennis en ervaring uit te wisselen

- we vervolgens de bestaande kennis en ervaring kunnen bundelen

 

Ik geef daarbij accuut toe dat ik (behalve inhoudelijke kennis van EAD, ISAD en ISAAR) in de praktijk nog een totale leek ben, maar ook eentje die zeer bereid is om te luisteren en leren...

Weergaven: 342

Hierop reageren

Berichten in deze discussie

Archief Eemland is sinds dit jaar bezig met het inventariseren volgens de EAD-methode. Standaardisatie heeft bij ons de volle aandacht.
Ik zeg: 'gewoon' uitproberen en al werkende leren ! En niet alleen maar 'voor de vorm' er over heen stappen. Accepteren dat geen enkele standaard perfect is en beginnen. Ik denk overigens dat jij dit ook bedoelt maar dat je probeert om het voorzichtig te formuleren?

Verder denk ik aan het beginnen met een leuke deelverzameling... :-)
Het IISG publiceert alle inventarissen al sinds 2000 met behulp van EAD op de website. Aanvankelijk werden de inventarissen met behulp van een sjabloon in WP9 gemaakt (MS-Word bood niet de mogelijkheden, die WP wel bood) en vanaf 2006 rechtstreeks in XML, waardoor er geen conversieslagen meer nodig zijn.

Alle archieven (meer dan 3000) zijn kort beschreven en van ca. 1300 zijn er inventarissen of plaatsingslijsten beschikbaar in EAD.

Gewoon mee begonnen en volledig doorgewerkt.
Een paar jaar geleden ben ik bezig geweest met het beschrijven van vergunningen die door waterschappen werden verleend.
Alle vergunningen uit een bepaalde periode beschreef ik op stuksniveau.
De bedoeling was dat ze via zoveel mogelijk trefwoorden (zoektermen) te vinden zouden zijn.
Op onze website zijn de beschrijvingen te raadplegen.
www.archiefeemland.nl en dan zoeken in 'archieven', bijvoorbeeld op 'Waterschap De Eem; vergunningen, 1973-1988' (beheers- of toegangsnummer van het archief is 0742.1).

Zoals hieruit blijkt, zijn geografische benamingen niet altijd duidelijk waardoor ik daarvoor meerdere zoektermen heb vermeld. En verder heb ik diverse zoektermen toegevoegd die mijzelf wel handig leken of die vaak door waterschapsmensen gebruikt werden (de meeste zoektermen gedaan in overleg met de waterschapsarchivaris en sommigen zelf bedacht). Ook heb ik bijvoorbeeld de kadastrale gegevens vereenvoudigd: in plaats van 'kadastraal bekend gemeente X, sectie Y nummer Z' maakte ik ervan - om snel het juiste nummer terug te kunnen vinden - 'kadastraal X Y Z' (dus bijvoorbeeld 'kadastraal Amersfoort K 1234'). Dit laatste lijkt mij een mooi voorbeeld voor een gestandaardiseerde beschrijving (een 'vaste formulering') voor alle archiefdiensten. Als ik zo onbescheiden mag zijn.
IS DIT IETS OM MEE TE NEMEN IN DEZE DISCUSSIE ? OF IS DIT EEN ALGEMEEN PROBLEEM DAT IEDEREEN KENT ? MAAR DAN IS MISSCHIEN TOCH MIJN TIP OVER DIE KADASTRALE GEGEVENS IETS OM TE DOEN ?
Spijker op z'n kop, @Joost Geraets (al zegt de ene Joost het anders dan de andere, ik bedoel inderdaad hetzelfde!)

Joost Geraets zei:
Ik zeg: 'gewoon' uitproberen en al werkende leren ! En niet alleen maar 'voor de vorm' er over heen stappen. Accepteren dat geen enkele standaard perfect is en beginnen. Ik denk overigens dat jij dit ook bedoelt maar dat je probeert om het voorzichtig te formuleren?

Verder denk ik aan het beginnen met een leuke deelverzameling... :-)
Goed om te horen. Positieve ervaring dus! Als ik het goed lees is de standaard prima werkbaar. Wat is voor jullie dé reden geweest om op EAD over te gaan? Wat zijn de voordelen tot nu toe en welke nieuwe mogelijkheden heeft dergelijke onstluiting jullie geboden?

Bernard Mantel zei:
Het IISG publiceert alle inventarissen al sinds 2000 met behulp van EAD op de website. Aanvankelijk werden de inventarissen met behulp van een sjabloon in WP9 gemaakt (MS-Word bood niet de mogelijkheden, die WP wel bood) en vanaf 2006 rechtstreeks in XML, waardoor er geen conversieslagen meer nodig zijn.

Alle archieven (meer dan 3000) zijn kort beschreven en van ca. 1300 zijn er inventarissen of plaatsingslijsten beschikbaar in EAD.

Gewoon mee begonnen en volledig doorgewerkt.
Hoe doet het kadaster zelf dit? Hebben die niet al een standaard ontwikkeld die wij zouden kunnen volgen/gebruiken? Zeker gezien de enorme digitaliseringsslag van de afgelopen jaren daar zou je dat op zijn minst verwachten...

Wim van den Hoonaard zei:
Een paar jaar geleden ben ik bezig geweest met het beschrijven van vergunningen die door waterschappen werden verleend.
Alle vergunningen uit een bepaalde periode beschreef ik op stuksniveau.
De bedoeling was dat ze via zoveel mogelijk trefwoorden (zoektermen) te vinden zouden zijn.
Op onze website zijn de beschrijvingen te raadplegen.
www.archiefeemland.nl en dan zoeken in 'archieven', bijvoorbeeld op 'Waterschap De Eem; vergunningen, 1973-1988' (beheers- of toegangsnummer van het archief is 0742.1).

Zoals hieruit blijkt, zijn geografische benamingen niet altijd duidelijk waardoor ik daarvoor meerdere zoektermen heb vermeld. En verder heb ik diverse zoektermen toegevoegd die mijzelf wel handig leken of die vaak door waterschapsmensen gebruikt werden (de meeste zoektermen gedaan in overleg met de waterschapsarchivaris en sommigen zelf bedacht). Ook heb ik bijvoorbeeld de kadastrale gegevens vereenvoudigd: in plaats van 'kadastraal bekend gemeente X, sectie Y nummer Z' maakte ik ervan - om snel het juiste nummer terug te kunnen vinden - 'kadastraal X Y Z' (dus bijvoorbeeld 'kadastraal Amersfoort K 1234'). Dit laatste lijkt mij een mooi voorbeeld voor een gestandaardiseerde beschrijving (een 'vaste formulering') voor alle archiefdiensten. Als ik zo onbescheiden mag zijn.
IS DIT IETS OM MEE TE NEMEN IN DEZE DISCUSSIE ? OF IS DIT EEN ALGEMEEN PROBLEEM DAT IEDEREEN KENT ? MAAR DAN IS MISSCHIEN TOCH MIJN TIP OVER DIE KADASTRALE GEGEVENS IETS OM TE DOEN ?
GOEDEMORGEN. DIT ARTIKEL UIT 2007 VOND IK IN MIJN FAVORIETENLIJST. UIT 'INTERMEDIAIR'

Op zoek naar een zoekmachine die verbanden kan leggen
Auteur: Sybe Rispens | 28-03-2007 | Reacties: 3 | Deel dit artikel

Van een zoekmachine die trefwoorden echt begrijpt kon lange tijd alleen maar gedroomd worden. Maar langzaamaan komt nu een 'semantisch web' van de grond.


Metadata Tegenstrijdigheden Grote open vraag Het internet staat bol van informatie waar computers niets van begrijpen. Tik 'Van Gogh' in en Google levert in 0,07 seconden een lijst met meer dan zes miljoen resultaten. Van geen enkel resultaat hebben de computers bij Google ook maar enig idee waar het over gaat. Of het nu om een reclameaanbieding gaat, een tentoonstelling, een persoon, een pornofilm of poëzie: voor de computers van het internet is het allemaal een grote digitale brij.
De grondlegger van het Word-Wide Web, Tim Berners-Lee, bedacht zes jaar geleden dat het internet meer met informatie zou moeten kunnen doen. In Berners-Lee's visioen zou het internet van de toekomst moeten weten wat de gebruiker bedoelt met een zoekterm. Bij 'Van Gogh' zou een toekomstige zoekmachine moeten denken aan de werken van de schilder, maar ook aan schilderijen waarop hij is afgebeeld, namen van leermeesters en vrienden, plaatsen waar hij heeft geleefd, mensen met wie hij veel omging. Dat is voor huidige zoekmachines niet mogelijk. Ze hebben geen weet van het feit dat er tussen de lettercombinaties 'Van Gogh' en 'Auvers-sur-Oise' ­ de plaats waar Van Gogh overleed ­ een verband bestaat.
Het web, zo vond Berners-Lee, zou zelfstandig dit soort verbindingen tussen de informatie van de miljarden internetpagina's moeten kunnen leggen. Het zou daarmee een soort wereldomspannend kennisnetwerk kunnen worden, waarbij computers alle informatie op het internet inhoudelijk zouden kunnen begrijpen.
Berners-Lee formuleerde zijn plannen in een voor de tijd van de internethype karakteristiek optimisme. Zijn doelen zijn nog lang niet bereikt, maar inmiddels zijn er toch belangrijke vorderingen gemaakt. Het zijn met name ook Nederlandse onderzoekers die het 'betekenisvolle web' dichterbij brengen.


Metadata
De belangrijkste voorwaarde voor het realiseren van de droom van Berners-Lee is dat machines betekenis kunnen geven aan documenten: het web moet iets van semantiek begrijpen. Guus Schreiber, hoogleraar Intelligente Informatiesystemen aan de Vrije Universiteit in Amsterdam, demonstreerde vorig jaar tijdens een internationale conferentie in Amerika, dat het ook kan. Schreiber had met andere wetenschappers de collectie van diverse musea in Nederland digitaal bij elkaar gezet en er samenhang in aangebracht. Dit project 'E-Culture' was zo succesvol, dat het project op het Amerikaanse congres tot beste aanzet voor het semantisch web werd bestempeld.
De zoekmachine van E-Culture kan dingen waar Google alleen nog maar van kan dromen. Wie 'Picasso' intikt, krijgt niet alleen vijf treffers van kunstenaars met die achternaam, maar ook de namen van vrienden en collega's. Dan nog schilderijen en sculpturen die door Picasso zijn gemaakt, maar ook werken van anderen, die door Picasso zijn beïnvloed, of die in dezelfde kunststroming liggen.
Schreiber: 'Eigenlijk was dit project een voorbeeld van een standaardapplicatie. Binnen het vakgebied was er al jaren over gesproken, maar nog nooit had iemand de moeite genomen om het werkelijk op zo'n grote schaal in de praktijk te brengen.' De belangrijkste verdienste van E-Culture is het bijeenbrengen in één zoeksysteem van allerlei verschillende soorten informatie die musea door de jaren heen hebben verzameld. 'De omvang van het project is daarbij een grote technische uitdaging: het gaat om tienduizenden objecten en honderden miljoenen beschrijvingen daarvan', zegt Schreiber.
De computer moet al die beschrijvingen 'begrijpen'. Dat gebeurt in E-Culture door de informatie te voorzien van speciale annotaties, ook wel metadata genoemd. De annotaties zijn onderling hiërarchisch geordend en door mensen zijn zinvolle verbanden ertussen aangegeven. Zo valt 'Picasso' in de categorie 'schilder'. En 'schilderen' en 'beeldhouwen' zijn twee 'eigenschappen' van Picasso.
Uit dit soort annotaties en hun onderlinge verhoudingen kan de computer bepaalde logische redenaties afleiden. Het systeem kan zo verbanden herkennen, ook als die niet vooraf expliciet door een mens zijn ingevoerd. Als in de formele beschrijving staat dat 'schilderen' een eigenschap van Picasso is, en dat 'schilderen' ook een eigenschap van Van Gogh is, dan kan het systeem zelf een verband leggen tussen beide schilders.
E-Culture heeft laten zien dat het aan elkaar knopen van dit soort beschrijvingen goed kan werken. Dat succes kent wel twee fundamentele beperkingen: bij kunst gaat het maar om een beperkt kennisdomein en bovendien is het een kennisdomein waarin feiten en gegevens niet zo snel veranderen.

Tegenstrijdigheden
Dat er voor zo'n toekomstig systeem met miljarden gegevens gerekend moet worden, zien de meeste onderzoekers als het geringste probleem. Computers verdubbelen nu eenmaal elke 18 maanden hun rekencapaciteit. Maar hoe zit het met de andere uitdagingen van het semantische web?
De tweede horde voor systemen als E-Culture is: wat te doen met tegenstrijdige informatie? Zelfs als niemand kwade wil in de zin heeft, ontstaan er in de 'thesaurus' (geordende begrippenstructuur) die de ontwikkelaars van een semantisch web vastleggen, logische tegenspraken.
Zo zou men in een thesaurus de volgende vier regels kunnen aantreffen: 'koeien zijn dieren', 'schapen zijn dieren', 'koeien en schapen zijn vegetariërs' en 'vegetariërs eten nooit andere dieren of delen van andere dieren'. Vervolgens verschijnt er op een dag een bericht op het web dat sommige koeien hersenen van schapen gegeten hebben en vervolgens ziek werden. Deze koeien worden 'gekke koeien' genoemd. De bestaande thesaurus kan nu alleen consistent blijven als tenminste een van de regels eruit wordt geschrapt. Welke van de regels moet er nu aan geloven?
Frank van Harmelen , hoogleraar kennisrepresentatie en redenering aan de afdeling kunstmatige intelligentie aan de Vrije Universiteit van Amsterdam, is desondanks optimistisch over het vinden van oplossingen voor dit soort problemen: 'We moeten hier voorbij de klassieke logica ­ waarbij iets of waar of onwaar is. Het is helemaal niet nodig om dit soort tegenspraken honderd procent goed op te lossen. Ook als je systeem het maar een beetje goed doet, heb je toch al een enorme winst gemaakt.'

Grote open vraag
Voor een wereldomspannend semantisch web is het noodzakelijk dat er gestandaardiseerde manieren ontwikkeld worden om kennis vast te leggen en tussen computers uit te wisselen. Voor het laatste is niet de techniek, maar de mens doorslaggevend omdat er goede internationale afspraken gemaakt moeten worden. In allerlei toepassingsgebieden schieten er op dit moment thesauri en begrippenlijsten uit de grond voor de biotechnologie, de informatica, de financiële sector, enzovoort. 'Voor mij is de grote open vraag: zullen we er in slagen al die begrippenlijsten op een zinvolle manier met elkaar te verbinden?', zegt Van Harmelen.
Of het dus ooit zover komt dat in een semantisch web, zoals Berners-Lee droomde, 'computers in staat zullen zijn om alle data op het internet te analyseren ­ de inhoud, onderlinge samenhang en de interactie tussen mensen en machines', is nog steeds de grote vraag. Maar het semantisch web heeft voor beperkte kennisgebieden duidelijke doorbraken bereikt. Schreiber: 'Mijn droom is dat we over vijf jaar op deze manier alle musea in Nederland met elkaar kunnen verbinden. Dan ontstaat een soort cultureel kenniseiland. Dat eiland zou je daarna kunnen uitbreiden op Europese schaal, en misschien valt uiteindelijk te denken aan het digitale erfgoed van de hele wereld.'
Kadasternummers veranderen natuurlijk weleens. Dat zou je kunnen ondervangen door achter 'Amersfoort K 1234' het jaartal te plaatsen: 'Amersfoort K 1234 (1975)' (fictief voorbeeld).
In het kader van een semantisch web kunnen we niet om standaarden heen en HTML5 is the next big-thing als standaard momenteel. En terecht, want het is een mindshift waar we even doorheen moeten komende jaren.

Even concreet is in het kader van dingen beschrijven de microdata model binnen HTML5 een interessante om dingen te beschrijven/benoemen. Hier meer uitleg: http://diveintohtml5.org/extensibility.html. Kan goed naast de RDFa techniek worden gebruikt.
Ik vraag me af of UDC (Universele Decimale Classificatie) in het semantisch web geen rol van betekenis kan spelen.
Zie www.udc.org.
Bibliotheken en documentalisten werken hier al tientallen jaren mee.
Alle informatie is toegankelijk te maken, via een logische structuur.
Voordeel van een code boven trefwoorden: een code is korter, waarbij ook het sorteren makkelijker zal zijn. En het onthouden van codes kan bij veel mensen beter blijven hangen, denk ik (of is dat niet goed gedacht ?).
En een code kan eenvoudig in barcode omgezet worden, wat volgens mij ook weer mogelijkheden biedt voor 'storage and retreival'.

Helaas ben ik niet bij het congres geweest vorige week over het 'semantisch web'. Standaardisatie om te komen tot betere toegankelijkheid vind ik een interessant en noodzakelijk onderwerp. Van bovenstaande reakties begrijp ik (nog) niet veel.
Misschien sla ik de plank mis...
Maar ik zie zeker voordelen in het gebruik van de UDC (waarvan zoals men weet de VNG-archiefcode is afgeleid).

vriendelijke groet,
Wim v.d. Hoonaard.
Gevonden op www.overheid.nl

GEOZET
Informatie opzoeken op geografische kenmerken zoals postcode en woonplaats is voor veel Nederlanders vanzelfsprekend. Dus ook als het gaat om het ontsluiten en vinden van overheidsinformatie. Nu wordt kaartinformatie op veel verschillende websites van gemeenten, provincies, waterschappen en de centrale overheid aangeboden. Daardoor is deze nauwelijks uniform toegankelijk en vergelijkbaar.

Het project “Geografische zoek- en toondienst”, afgekort GEOZET (werktitel) is gericht op het realiseren van een centrale toegang via Overheid.nl tot locatiegebonden informatie die overheden aanbieden op basis van standaarden. De voorziening maakt het mogelijk om diverse soorten overheidsinformatie via een eenvoudige interactieve kaart te raadplegen en met elkaar te combineren.

Het ministerie van Binnenlandse Zaken en Koninkrijksrelaties (BZK) heeft aan het ICTU-programma e-Overheid voor Burgers de opdracht verstrekt voor het uitvoeren van de realisatiefase en het inrichten van het beheer.

P.S. (van Wim v.d. H.): Waarom staan archiefdiensten niet op www.almanak.overheid.nl ?

Antwoorden op discussie

RSS

Zoeken in Archief 2.0

Loading

© 2017   Gemaakt door Archief 2.0.   Verzorgd door

Banners  |  Een probleem rapporteren?  |  Algemene voorwaarden