DESIDERIA – toekomstige onderzoekstool

Data digital flowdoor Nicoline van der Sijs

 

Je kunt niet vroeg genoeg beginnen met na te denken over de toekomst. Daarom vroeg de Koninklijke Nederlandse Akademie voor Wetenschappen in 2015 aan onderzoekers welke internationaal uitdagende grootschalige onderzoeksfaciliteiten zij in 2025 nodig hebben om tot vernieuwend onderzoek te komen. De onderzoekers lieten hun toekomstfantasieën de vrije loop, en ze werden door de KNAW weer terug met de benen op aarde gebracht door het verzoek hun idee nader uit te werken. Op 19 januari beschreef Wyke Stommel op dit blog hoe zij met collega’s een voorstel heeft ingediend voor de onderzoekstool ADVANT, waarmee videodata kunnen worden uitgewerkt en geanalyseerd.

De toekomstwens van een andere groep onderzoekers was dat in 2025 historische teksten inhoudelijk en semantisch door de computer kunnen worden geanalyseerd. Om dit mogelijk te maken hebben zestien onderzoekers van verschillende universiteiten en KNAW-instituten onder leiding van Els Stronks en Lex Heerma van Voss een programma opgesteld onder de titel DESIDERIA: Dutch Extensible Semantic Infrastructure for Digital Explorative Reading and Information Architecture. Als dit programma is gerealiseerd, kunnen onderzoekers met behulp van de computer bijvoorbeeld de verschuivende opvattingen rond culturele en politieke concepten opsporen en aantonen, zoals democratie of sociale ongelijkheid. Ook semantisch zoeken wordt dan een realiteit.

Het DESIDERIA-programma bestaat uit drie deelprojecten, die zijn gericht op de verbetering van de data, de ontwikkeling van tools voor semantische analyse, en het opzetten van de benodigde infrastructuur. De KNAW heeft ieder deelproject subsidie gegeven om een rapport op te stellen waarin beschreven staat wat de huidige problemen zijn en hoe we die in de toekomst kunnen oplossen. Op verzoek heb ik, met de hulp van een assistent en een technicus, het rapport voor het eerste deelproject over de verbetering van de data geschreven.

De data van de genoemde groep geesteswetenschappers zijn gedrukte of handgeschreven teksten, inclusief de informatie over die teksten, de metadata (auteur, drukker, jaar en plaats van uitgave en dergelijke). Deze teksten vormen immers de neerslag van de taal en cultuur, en ze zijn tot circa 1900 de belangrijkste historische getuigen. Voor toekomstig vernieuwend onderzoek moeten die teksten in digitale vorm beschikbaar komen, in een betrouwbare transcriptie, en bovendien moeten de digitale teksten representatief zijn voor de complete historische periode van het Nederlands. De huidige datasets van teksten zijn vaak van lage kwaliteit, doordat ze gelezen zijn met optische tekenherkening, en ze zijn niet representatief: zowel de data als de metadata bevatten grote lacunes. Zo zijn er nauwelijks teksten uit de 15de en de 16de eeuw beschikbaar. En van veel werken, zelfs van de beroemde 17de-eeuwse auteurs, is niet de oorspronkelijke eerste editie gedigitaliseerd maar een latere, geredigeerde uitgave. Erger nog: we hebben niet eens een compleet overzicht van alles wat ooit in het Nederlandse taalgebied is verschenen, laat staan van wat daarvan is gedigitaliseerd. Voor verdieping van het toekomstige onderzoek moeten we zo snel mogelijk de lacunes in de data en metadata opsporen en dichten.

In het rapport hebben we via enquêtes het antwoord gezocht op de vraag welke lacunes er zijn en hoe we die kunnen dichten. De eerste enquête is ingevuld door onderzoekers: zij konden hun persoonlijke datawensen en -behoeften aangeven. Zoveel onderzoekers, zoveel zinnen – dat was te verwachten, maar er kwam ook wel een patroon uit: in het algemeen bleek grote behoefte aan een goed uitgebalanceerd (qua tekstsoorten en periodes) historisch en hedendaags tekstcorpus met betrouwbare transcripties die zijn verrijkt met taalkundige en syntactische informatie.

De tweede en derde enquête hadden tot doel te bekijken in hoeverre grootschalige ontsluiting van data en kwaliteitsverbetering met behulp van crowdsourcing kunnen worden uitgevoerd. Daarvoor is projectleiders van crowdsourcingprojecten en vrijwilligers gevraagd naar hun ervaringen. Crowdsourcing bleek inderdaad, mits goed opgezet, een panacee voor datagebrek.

Ons rapport* bevatte uiteindelijk dertien aanbevelingen over hoe datalacunes met behulp van crowdsourcing kunnen worden gedicht. Zonder de subsidie van de KNAW had ik niet de mogelijkheid gehad de enquêtes af te nemen, en ik heb er ook zelf veel van geleerd: zo ga ik zeker nadenken over sommige suggesties om het werk voor de vrijwilligers interessanter en doelmatiger te maken. Het rapport is geïntegreerd in het DESIDERIA-programma, en het wachten is nu op de reactie van de KNAW. Maar dat wachten is niet lijdzaam: afgelopen week vond de eerste bijeenkomst met onderzoekers van zusterinstituten plaats over de vraag hoe we op korte termijn kunnen komen tot een gemeenschappelijke crowdsourcinginfrastructuur. Zo komt de toekomst van 2025 veel sneller dichterbij dan je denkt.

 

 

* Nicoline van der Sijs, Anna Kirstein, Daan Broeder (2015), ‘Strategische dataproductie: representativiteit van data via crowdsourcing’, rapport t.b.v. KNAW-agenda Grootschalige Onderzoeksfaciliteiten DESIDERIA, met 6 bijlagen, te vinden op: https://www.meertens.knaw.nl/cms/nl/medewerkers/143510-nicolines.