Translate Milfy!

maandag 15 juni 2015

Crowdsourcing in de taalkunde aflevering 4: Nederlandse kranten

Weten jullie allemaal wat crowdsourcing is? Dat is het inzetten van Jan Modaal, Henk, Ingrid en ander Generaal Publiek voor allerlei zaken. Een vage definitie, maar het is ook eigenlijk best een vaag begrip. In de wetenschap is het minder vaag. Daar betekent crowdsourcing: het grote publiek data laten verwerken. Het is nauwelijks te overschatten hoe fijn dit voor wetenschappers is. Ook in de taalhoek is er een en ander te doen. Milfje bespreekt de komende tijd een aantal schitterende projecten. Weet je, als iedereen die wat te zeuren had over taal nou mee zou werken aan deze projecten, dan zou de wereld een stuk beter zijn. Aflevering 4: Nederlandse kranten


In november 2013 lanceerden de KB en de universiteitsbibliotheken (door studenten altijd liefkozend UB genoemd) van de Uva, Leiden, Groningen en Utrecht een initiatief zonder weerga: Delpher. Ze maakten een gargantueske hoeveelheid boeken, kranten, tijdschriften en radio-opnames beschikbaar. Zomaar, online, om te lezen. Niet alleen heel leuk, maar ook heel nuttig voor de wetenschap. Eindeloos onderzoek kun je doen naar allerlei fenomenen waarvoor je eerder de massieve krantenboeken van de UB moest doorwerken op de afdeling Speciale Collecties, waar het gezellig is, maar ook benauwd, en waar de stoelen echt belachelijk slecht zitten.

Nu hoefde dat allemaal niet meer, en kon je eenvoudig werken aan interessante artikelen in allerlei verschillende domeinen, zoals Nederlands, Cultuur-en Kunstgeschiedenis, Mediastudies, Tijdschriftstudies, Communicatie-wetenschap en gerelateerde vakgebieden (ik verzin dit niet, dit schreef men op Neder-l). Maar helaas pindaboter! Ontzettend veel van de oudere kranten zijn schier onleesbaar! OCR kwaliteit strikes again! Het is wel hilarisch, maar je hebt er weinig aan, als je dit soort teksten krijgt: 

~ «©ch 2 öcfcg arribceröe alpicr/fpne ütcpfer* liclu HEaiellcpt neffeng Dat gantfc ©of/ toer* DettDc een up?e ban Defe £>tabt/Doo? Be tegljcn* tooo?Digpe? /Duur enDe anDere ©ojficn / %if» fepoppen enDe De groote alpier snnte ontfan* gpen enbe naer Defe £taDt/ tot m Dcfeö 2öifi ' fepopg ft»upg / alDaer fijne j©aiefïept logeert/ geconüopecct öaer oticr pet Canon üatiDo 3©allen/ toierDc gpelofi/ enbe gaüeit Die irt 3©acpmenfiacnbc ©o?gpcrg / Dapper bier* Men fegt 

En dat terwijl de tekst eigenlijk best goed leesbaar is voor mensen, als je Gotisch schrift kan lezen. 
31 december 1652, van deze link.

Nou, daar moet wat aan gebeuren. Gelukkig is daar de onvermoeibare, onverzettelijke Gravin der Neerlandistiek, prof. dr. Nicoline van der Sijs. Zij zette (geholpen door de whizkid van het Meertens, Rob Zeeman) een project op om die kranten te gaan transcriberen. 

Opnieuw moet je je als vrijwilliger door een uitgebreide inleiding heenwerken. Dat is echter van groot belang, omdat de transcriptieconventies er worden uitgelegd (heerlijk woord). Zo type men namelijk bijvoorbeeld spaties vóór komma's , zoals die vroeger veel voorkwamen, niet over, maar doet men dat volgens de moderne norm. Je moet het weten, anders bega je fouten, en wordt de data vuil.

Het is leuk, het is eenvoudig, je moet er acuut mee beginnen. Hier kun je je aanmelden, hier is alvast een leesoefening, dus ga aan de gang lezers, en dan krijgen we steeds beter inzicht in de Nederlandse taal.  

2 opmerkingen:

  1. Ik doe dit vrijwiligerswerk al jaren en het is bijzonder de moeite waard. Zie bijvoorbeeld deze nieuwsbrief van het Meertensinstituut: http://www.meertens.knaw.nl/cms/nl/nieuws-agenda/nieuwsbrief/uitgelicht/144811-dialectwoorden-in-een-nieuw-digitaal-jasje

    BeantwoordenVerwijderen
  2. Blijkbaar heeft een vorige lezer niet geweten wat keurvorsten waren.

    BeantwoordenVerwijderen