Speel mee met Monk, het zoeksysteem voor gedigitaliseerde handschriften.

Ons grote ideaal is het kunnen zoeken, à la Google, in handschriften. Professor Schomaker van de Rijksuniversiteit Groningen ontwikkelt met financiële steun van NWO een zoeksysteem, waarbij gedigitaliseerde teksten doorzocht kunnen worden. Het Nationaal Archief, de Groninger Archieven, het Stadsarchief Leuven en het Gelders Archief dragen bij aan dit project. Thans wordt een gebruikersinterface ontwikkeld door Target Holding bv om de software, Monk genaamd, gemakkelijker bruikbaar te maken.

 

Het grootste probleem met handschriften is dat ze zo verschillend zijn. De software moet dus elk handschrift aanleren. Dat moet door mensen worden gedaan, door archivarissen en ingewijde, toegewijde vrijwilligers. Om dit te laten zien, en om de software nu al een beetje te helpen leren, is een tijdelijke website beschikbaar voor belangstellenden. Op deze site kun je, als je dat leuk vind, losse woorden transcriberen of, zo als Monk dat noemt: labellen. Je krijgt een woord - of gedeelte van een woord - te zien, in een vakje, en hetzelfde woord gehighlighted in een zin erboven. Gevraagd wordt de suggestie van de software te controleren en te bevestigen of te corrigeren. De woorden komen uit verschillende teksten, die niet voor iedereen leesbaar zullen zijn. Kun je er niets van maken? Geen nood, gewoon een ander woord kiezen.

 

In het tekstvakje 'Welk woord staat hier?' worden problematische woordafbeeldingen getoond die een correct 'woord-label' behoeven. Verbaas je dus niet als de computer een onzinnig voorstel doet: het geschreven stukje tekst was op dat moment nog te moeilijk voor Monk. Ook krijg je soms een stukje verknipte tekst waar helemaal geen woorden of woorddelen opstaan, maar alleen stokken en staarten van letters, of een losse streep of vouw: gewoon overslaan.

Er is nog enig verschil tussen wat er in het tekstvakje staat en wat er boven in de regel met geel is gehighlighted. Wat in het tekstvakje staat is leidend. Is het een half woord, dan vul je een half woord in. Zijn het twee woorden, dan vul je twee woorden in.

 

Aan deze website is een spelelement aan toegevoegd. Je kunt smileys verdienen en de scores en topscores worden bijgehouden. Ieder die meedoet krijgt een onchristelijke, maar in ieder geval latijns-achtige dubbele monniksnaam. Je kunt dus je eigen score in de gaten houden.

Thans bevat de database van Monk scans van indices van het Kabinet der Koningin, scheepsjouraneln van een der Admiraliteitscolleges, en van een protocol van de Schepenbank van Leuven. 

Nog vragen? Houd je muis stil boven een schermonderdeel en er verschijnt een helptekst. Of je klikt op het grote vraagteken voor een afzonderlijke help-pagina. 

 

En wil je zien wat de resultaten zijn van dit aanleren, ga dan naar de zoekmachine van Monk (link onderaan de webpagina).

 

Jouw inspanningen van het labelen zijn niet onmiddellijk zichtbaar in de zoekresultaten. Er is heel veel rekenwerk voor nodig om de aanvullingen en correcties effectief te laten zijn. Dat rekenwerk gebeurt 's nachts. Toch zal binnen enkele dagen een zelfde zoekopdracht een beter resultaat opleveren.

 

Doe mee en leer Monk lezen.

Pas op, zoals elk spelletje is Monk ook licht verslavend!

 

Op- en aanmerkingen? vermeld ze hieronder.

 

Weergaven: 729

Hierop reageren

Berichten in deze discussie

Inderdaad: verslavend!

Bedankt voor deze post, Henny!

Ik vind het vooral leuk om te zien dat ook in dit geval weer een spelelement wordt ingezet. Ooit zag ik dat bij Google Image Labeler voor het eerst en tegenwoordig gaan alle crowdsourcingsprojecten van zo'n competitief aspect vergezelf. En terecht! :-)

Als mijn voorstel voor de KVAN-dagen wordt goedgekeurd (sessie over crowdsourcing), dan komt Monk er zeker in. Ik zal dit bericht ook even doorsturen aan alle collega's op het BHIC. En een blogpost zit er vanavond of zo ook nog wel in!

Kan Monk uit de voeten met bijzondere tekens? Dubbele punten lijken in is-gelijk-tekens te veranderen, klopt dat? Of is het helemaal niet de bedoeling om iets anders dan gewone letters in te voeren?

Beste Mariëtte,

Monk kan overweg met bijzindere tekens, maar zet deze om in ASCII met een toevoeging. De dubbele punt wordt omgezet in een =-teken, de spatie in een underscore. Kijk maar eens op de help-pagina, onder het grotere vraagteken.

Groeten,

Henny van Schie

Mariëtte van Selm zei:

Kan Monk uit de voeten met bijzondere tekens? Dubbele punten lijken in is-gelijk-tekens te veranderen, klopt dat? Of is het helemaal niet de bedoeling om iets anders dan gewone letters in te voeren?

zie ook #Optical #Character #Recognition (#OCR) ?

Kunnen zoeken in huidige leesbare tekst die de zoekwoorden uit handschriften haalt: prachtig toch ?

 

Goed dat dit bestaat, lijkt mij. Dit heette vroeger toch ook wel Optical Character Recognition (OCR) ? Of nog steeds ?

ki beh la sez netnup !

ik heb al zes punten !

Inderdaad. Ik ben gestopt na 11 smileys...

Albert Koevoet zei:
Inderdaad: verslavend!
Neen, Wim, het lijkt er wel een beetje op, maar technisch zit het wat anders in elkaar. Ik heb zelf ook moeite het te begrijpen, laat staan dat ik het kan uitleggen, maar het heet patroonherkenning, of pattern recognition. Het lukt nog lang niet om op letterniveau te herkennen, vandaar dat er met woorden en woorddelen wordt gewerkt.

Wim van den Hoonaard zei:
Goed dat dit bestaat, lijkt mij. Dit heette vroeger toch ook wel Optical Character Recognition (OCR) ? Of nog steeds ?
Zojuist heb ik geblogd over Monk. Hoe tijdelijk is trouwens 'tijdelijk'?

Yola, Christian,

Tijdelijk is een relatief begrip, maar deze site is niet als een permanente bedoeld. Dat betekent dat het webadres kan veranderen, de functionaliteit kan worden aangepast, en zo meer. Het is een proef om te zien of het publiek geïnteresseerd is, of er niet al te onzinnig wordt gelabeld, wat het aantal labels is, dat nodig is om een goed resultaat te krijgen. Ook de omgeving is een testomgeving. Ik verwacht dat de functionaliteit van deze site in enigszins aangepaste vorm wel weer terug zal komen in de meer definitieve gebruikersinterface die nu wordt ontwikkeld.

Maar een half jaar zal deze site toch wel in de lucht blijven, behoudens de bekende uitzonderingen van het 'plat' gaan de testsite. Maar dat schijnt bij mij zeer bekende gerenommeerde archiefdiensten ook wel eens voor te komen ;-)

Als eenvoudig voorbeeld van crowd soucring kan dit zeker dienen, ook voor cursisten 23 archiefdingen.

De VPRO zal op 22 maart in het programma Labyrint kort aandacht schenken aan Monk.
... enne, soms is Monk wel heel traag ...

Antwoorden op discussie

RSS

Zoeken in Archief 2.0

Loading

© 2016   Gemaakt door Archief 2.0.   Verzorgd door

Banners  |  Een probleem rapporteren?  |  Algemene voorwaarden