Translate Milfy!

donderdag 30 augustus 2018

De beste digitale taalbronnen

Door Sterre Leufkens

Internet, wie kent het niet? Het heeft allerlei grootse en gevaarlijke verschijnselen teweeg gebracht, zoals de Arabische lente, project X, en Milfje. Maar minstens zo belangrijk is dat het internet het voor ons allemaal mogelijk maakt om (beter) onderzoek te doen, naar taal bijvoorbeeld. In de afgelopen decennia zijn er een aantal superhandige bronnen en tools ontwikkeld, die jij thuis met je simpele wifi-abo gewoon kunt gebruiken, om onderzoek te doen bijvoorbeeld. Milfje zet een paar hoogtepunten op een rijtje. 


*Dit overzicht werd mede mogelijk gemaakt door de onvolprezen Ton van der Wouden.

Woordenboeken en grammatica's


Als je vroeger iets wilde weten over woorden of grammatica, dan was je aangewezen op boeken. Niks mis met boeken, natuurlijk, maar digitale woordenboeken en grammatica's hebben een groot voordeel: ze zijn beter doorzoekbaar. Fijn, dus, dat we de beschikking hebben over de volgende online bronnen.


De Algemene Nederlandse Spraakkunst is de klassieke descriptieve grammatica van het Nederlands, en hoera: hij staat online en is dus makkelijk doorzoekbaar. Nou ja, makkelijk: het is notoir moeilijk om info te vinden in de e-ANS. Daar wordt dan ook hard aan gewerkt, en als het goed is wordt deze grammatica snel verbeterd en uitgebreid. Maar ook nu al is de e-ANS een onmisbare online bron.


In het Taalportaal vind je superveel informatie over de fonologie, morfologie en syntaxis van het Nederlands, het Fries, en het Afrikaans. Héél erg handig als je je als taalwetenschapper met deze talen bezighoudt. De informatie is actueel behoorlijk diepgravend, en helder opgeschreven. Voor taalkundigen dan - de geïnteresseerde docent is misschien blijer met de ANS, maar dat weet ik niet zeker.


Wil je weten waar een bepaald woord vandaan komt, dan kun je in een etymologisch woordenboek kijken. Wat je beter kunt doen, is zoeken in de online Etymologiebank: daar vind je info uit een heleboel woordenboeken, gecombineerd en makkelijk doorzoekbaar. Een schat van kennis, zomaar gratis en voor niks! Deze site staat ergens hoog in Milfjes website-top 10, en terecht. 

> WNT

Nog zo'n gratis taalschat is gemaakt door het Instituut voor de Nederlandse Taal. We hebben het over het Woordenboek der Nederlandse Taal (WNT), een woordenboek van het Nederlands van 1500 tot 1976. Via bovenstaande link kun je niet alleen makkelijk het WNT doorzoeken, maar ook meteen het Woordenboek der Friese Taal, en historische woordenboeken met info over woordbetekenissen in nóg oudere versies van het Nederlands. Inclusief etymologie en citaten. Genieten. 


Corpora 

Woordenboeken en grammatica's zijn geschreven door deskundigen. Hoe goed die deskundigen en hun analyses ook zijn, het is altijd boeiend om ook te kijken naar de ruwe data, d.w.z. dat wat mensen zelf doen in verschillende contexten, als ze denken dat er geen taalkundige meekijkt (quod natuurlijk wel). Daarom is het ook zo vet dat we steeds meer toegang hebben tot corpora: grote verzamelingen taal van allerlei soorten en maten. Soms zijn die corpora ook nog eens verrijkt, oftewel: er is informatie toegevoegd over sprekers/schrijvers, context, of zelfs over eigenschappen van de gebruikte woorden en zinnen, zodat je bijvoorbeeld meteen alle bijvoeglijke naamwoorden kunt vinden die Bredero gebruikte in zijn kluchten. Waar moet je wezen voor dit soort data?


Op deze site kun je een ongekend enorme hoeveelheid tekstcollecties doorzoeken, op 1001 manieren en met prachtig rijke meta-informatie. Er zijn officiële teksten en informele teksten, fictie en non-fictie, van de 14e eeuw tot nu. Je kunt zoeken op woord, op woordcombinatie, op lemma, op woordsoort, op combinatie van woordsoorten, je kunt allerlei grafiekjes maken, een tijdlijn - alles wat je corpusonderzoekende hartje maar begeert. Als je beschikt over inloggegevens bij e.o.a. onderzoeksinstituut kun je zelfs stukjes corpus opslaan en nog meer zoekstrategieën toepassen. Kortom - Nederlab kan alles. Om door te krijgen hoe en wat, kun je hier tutorials bekijken.  

- Delpher 
Delpher is onderdeel van NederLab dus misschien is het gek om hier te noemen, maar we doen het toch, omdat het zo'n briljante database is. Delpher bevat kranten, boeken en tijdschriften uit de 15e eeuw tot en met nu, gedigitaliseerd en dus, jawel, doorzoekbaar. Bekijk waar de media over schreven op je geboortedag. Zie in tijdschriften uit 1930 hoeveel Frans we toen spraken. Zoek op wanneer kranten voor het eerst over klimaatverloedering begonnen te schrijven. Delpher is een bron van historisch besef, en van vermaak trouwens (zie daarvoor ook het Twitter-account @marktraa).

- DBNL 
In de Digitale Bibliotheek der Nederlandse Literatuur (DBNL) vind je ook alweer zo'n ongekend enorme hoeveelheid teksten, alsof het niks is. Hier gaat het om teksten 'die behoren tot de Nederlandse letterkunde, taalkunde en cultuurgeschiedenis', en met Nederlands wordt dan bedoeld: uit het hele taalgebied. In de DBNL vind je behalve teksten ook knetterveel bibliografische informatie. Zoek bijvoorbeeld op de Curaçaose schrijver Frank Martinus Arion, en je krijgt een overzicht van de biografieën over hem, de boeken en artikelen die hij geschreven heeft (waarvan je er een paar meteen online kunt lezen), en allerlei secundaire literatuur. In de DBNL staat zo ontzettend veel informatie, daar kun je de rest van je leven heerlijk in verdwalen. 

Leuk ja, leuk, die geschreven teksten, maar als taalonderzoekster wil je natuurlijk ook graag het gesproken woord bestuderen! Gesproken taal is tenslotte veel spontaner, er gebeurt van alles dat in schrijftaal niet mag en kan, en is daarmee veel interessanter als je bijvoorbeeld naar taalverandering kijkt. Of als je bijvoorbeeld uitspraakkwesties wilt bestuderen. Hiervoor wend je je dan tot het Corpus Gesproken Nederlands (CGN). Het CGN bevat een loeigrote hoeveelheid gesproken taal, opgenomen tussen 1998 en 2004, en geannoteerd voor van alles en nog wat. Je moet het downloaden, maar omdat het zo loeigroot is kan dat niet zomaar - je moet de harddisk betalen waar het op staat, of toegang krijgen via een onderzoeksinstituut waar je bij hoort. Dat kost dus wat geld en/of moeite, maar dan heb je ook wat: het CGN is bij mijn weten de enige plek waar je zo veel gesproken Nederlands (van Nederlandse en Belgische sprekers) vindt.   



Twitter

De echte hedendaagse hipsteronderzoek(st)er is nog niet tevreden met online grammatica's en corpora van geschreven en gesproken teksten - nee, socialemediataal, dat is pas interessant! Twitter kun je eigenlijk zien als een ideaal corpus: het is allemaal getypt, dus makkelijk te bewaren en te doorzoeken, maar mensen schrijven er in een soort losse, spontane spreektaalachtige taal, zonder gehinderd te worden door al te veel purisme. Om al die heerlijkheid goed te kunnen bestuderen zijn er een paar tools ontwikkeld waarmee je heel prettig in miljarden tweets kunt graven.

> TwiNL  

Zoek snel en makkelijk door Nederlandstalige tweets uit 2014. Geen heel lange periode, dus niet geschikt voor de analyse van grote taalveranderingen, maar daar staat tegenover dat je blitse heatmaps (kaartjes waarop je kunt zien waar een woord gebruikt is) en linecharts (tijdslijnen) kunt maken. Ook kun je razendsnel zien door wie bepaalde woorden worden gebruikt.



De Nederlandse taalkundige Gosse Bouma ontwikkelde deze zoekmachine, waarmee je handig in Nederlandstalige tweets kunt zoeken. Zoek op een enkel woord om z'n frequentie te achterhalen. Leuker is het om een * voor of achter het woord te zetten (een zgn. wild card), en te kijken met welke woorden het zoekwoord vaak gecombineerd wordt (een ngram is een combinatie van n woorden). Wat blijkt: 'mega' wordt vaak gebruikt voor 'veel' dan wel 'mindy'; 'ultra' komt het vaakst voor in combinatie met 'gay'. En voor zulke dingen mag je dan weer op zoek naar een verklaring. 


Zo kijkbuiskinderen, dat is het even voor nu. Maar deze lijst is vast verre van volledig. Zetten jullie je suggesties erbij, hieronder in de comments? Dank!

Geen opmerkingen:

Een reactie posten