Translate Milfy!

dinsdag 9 juni 2015

Crowdsourcing in de taalkunde aflevering 1: Inleiding

Weten jullie allemaal wat crowdsourcing is? Dat is het inzetten van Jan Modaal, Henk, Ingrid en ander Generaal Publiek voor allerlei zaken. Een vage definitie, maar het is ook eigenlijk best een vaag begrip. In de wetenschap is het minder vaag. Daar betekent crowdsourcing simpelweg het grote publiek data laten verwerken. Het is nauwelijks te overschatten hoe fijn dit voor wetenschappers is. Ook in de taalhoek is er een en ander te doen. Milfje bespreekt de komende tijd een aantal schitterende projecten. Weet je, als iedereen die wat te zeuren had over taal nou mee zou werken aan deze projecten, dan zou de wereld een stuk beter zijn. Aflevering 1: Inleiding



De reden dat crowdsourcing zo goed werkt in de wetenschap, is dat heel veel wetenschappelijk onderzoek gebukt gaat onder een data-probleem. Om een claim te maken of een theorie op te stellen moet je veel data hebben, maar het vergaren, schoonmaken en analyseren daarvan kost heel erg veel tijd. Bovendien is het vaak betrekkelijk eenvoudig en geestdodend, en dat is dus een beetje zonde om door Wetenschappers te laten doen. Die kun je veel beter inzetten voor juist die volgende stap, de analyse van de data, waarbij ook theoretische kennis een belangrijke rol speelt. 

Het is dus helemaal niet zo'n gek idee om de makkelijke maar tijdrovende edoch belangrijke elementen uit te besteden aan het grote publiek. Dat is ook eigenlijk niet nieuw: het Oxford English Dictionary deed het al in de 19e eeuw. Toen dat woordenboek voor het eerst werd gemaakt, werd aan het Ganse Land gevraagd om woorden in te sturen met citaten. De laatste jaren neemt het wetenschapsparticipatieprincipe steeds meer een vlucht. Het beroemdste voorbeeld van een geslaagd uitbestedingsproject is waarschijnlijk wel eiwitje vouwen. Dat is geweldig, en daar moet je gewoon hier op Kennislink meer over lezen. Waar het in het kort op neer kwam was dat wetenschappers een spel ontwierpen, dat én leuk was om te spelen, én dat mensen puzzeltjes liet oplossen die voor computers niet echt geschikt waren. Dat project was nogal een succes, zoals dit citaat (van hier) bewijst:

Afgelopen voorjaar plaatsten de wetenschappers achter Foldit een puzzel over een nieuw eiwit op de website. Het ging om een eiwit waarvan wetenschappers al 15 jaar de structuur niet hadden kunnen achterhalen. De spelers van Foldit losten het binnen 2 weken op. Deze oplossing werd gecontroleerd door de onderzoekers, en bleek correct.

Dit is een voorbeeld van naast crowdsourcing ook nog gamefication, maar dat lijkt nog niet te bestaan in de taalwetenschap. In de taalwetenschap zijn dit soort projecten ook zeer voordehandliggend, en wel om een simpele reden: robots kunnen niet lezen, dus je hebt mensen nodig. Dat is misschien verrassend, want robots kunnen over het algemeen best goed tekst verwerken, maar ze kunnen ook opvallend veel niet. Denk maar aan CAPTCHA, u weet wel, die gedraaide cijfers die je moet lezen en invullen om te bewijzen dat je geen robot bent. Dat kun jij wel, en robots niet. Ook geschreven tekst überhaupt, en oudere teksten met vlekjes, vinden computers erg moeilijk. Mensen zijn onmisbaar als tekstverwerkers. 

Het is misschien ironisch, in deze computertijd, maar mensen zijn nog steeds nodig. De afgelopen jaren zijn er een aantal projecten gestart om mensen op verschillende manieren te laten bijdragen aan wetenschappelijk onderzoek. Meer weten? In de volgende aflevering vertellen we over Ancient Lives, en mogen jullie papyrusrollen lezen!

Geen opmerkingen:

Een reactie posten