Corpus (meervoud: corpora)

Engelse term:
 Corpus

Een taalkundig corpus is een gestructureerde verzameling opnames van taalgebruik, die met tekst doorzoekbaar is. Dat kunnen teksten zijn, of geluidsopnames van spraak, maar ook video-opnames van gebarentaal of van gesproken taal. Net als geluidsopnames zijn video-opnames niet meteen te doorzoeken: ze moeten eerst naar tekst zijn omgezet. Dat gebeurt door annotaties toe te voegen: stukjes tekst die verwijzen naar specifieke woorden, zinnen, of andere gebeurtenissen. In die tekst is vervolgens te zoeken. Gebaren worden geannoteerd door Nederlandse glossen toe te voegen.

De term corpus wordt soms gebruikt voor ‘dataverzameling’ in allerlei soorten onderzoek, maar meestal wordt de meer technische betekenis gebruikt zoals die net is omschreven: een gestructureerde verzameling taalmateriaal. Gestructureerd betekent hier dat er goed is nagedacht over een evenwichtige verdeling van de opnames over vrouwen en mannen, mensen uit verschillende regio’s, verschillende gespreksonderwerpen, en zo meer.

Corpora van geschreven teksten kunnen makkelijk verzameld worden door bv. stukjes uit krantenarchieven of van websites op te nemen. Vaak bestaan zulke corpora uit honderden miljoenen woorden, of zelfs nog veel meer. Videocorpora worden meestal speciaal voor dat doel opgenomen. Dit is veel meer werk, zeker waar het gaat om de annotatie van alle woorden of gebaren, en zulke corpora zijn dan ook een heel stuk kleiner. Het Corpus NGT bevat naar schatting 500.000 gebaren. De meeste hiervan zijn nog niet met glossen geannoteerd.