`Een monumentje voor het Nederlands,' noemt de taalkundige Harald Baayen het project Gesproken Nederlands dat volgend jaar van start gaat. Enkele honderden vrijwilligers zullen vierentwintig uur per dag alle woorden opnemen die ze uitspreken.  

Tien miljoen woorden in de palm van je hand

Marc van Oostendorp

(Dit artikel verscheen in Onze Taal, 1998)

Harald Baayen was een van de initiatiefnemers voor het project Gesproken Nederlands. Het ligt daarom voor de hand dat hij er enthousiast over is. Maar hij is niet de enige. `Toen het bericht in de krant kwam, stond de telefoon een paar dagen roodgloeiend', vertelt hij. `Het waren niet alleen journalisten die belden, maar ook een manager van een groot bedrijf die enthousiast adhesie betuigde. ``Goed dat er nu zo'n project voor het Nederlands komt", zei die man. Hij zag het als een belangrijk steuntje in de rug voor onze taal.'

Het project Gesproken Nederlands zal een van de grootste zijn die taalkundigen in ons taalgebied ooit uitvoerden. Volgend jaar begint een groep Nederlandse en Vlaamse taalwetenschappers gezamenlijk een elektronisch archief te bouwen waarin ongeveer tien miljoen gesproken woorden zullen worden opgeslagen. Vijf jaar later moet het archief op een CD-ROM zijn uitgebracht.

Aan al die woorden wordt een grote hoeveelheid extra informatie gekoppeld. Ze worden allemaal uitgeschreven, en er komt onder andere informatie over woordsoorten en de ontleding van de uitgesproken zinnen. Ook zal bij elk woord onder meer worden genoteerd wie het uitsprak, in welke omstandigheid hij dat deed, tot welke leeftijdscategorie de spreker hoorde, en tot welke sociale klasse. Op deze manier zullen taalkundigen eindelijk een instrument krijgen om systematisch een taalvorm te bestuderen die tot nu toe moeilijk te vangen was: de taal zoals Nederlanders en Vlamingen hem elke dag spreken.

WATER IN DE MOND

Het project krijgt subsidies van de Nederlandse en de Vlaamse overheid. Het is dan ook niet alleen uniek voor ons taalgebied. In de hele wereld bestaat er geen vergelijkbaar project voor enige andere taal. Alleen voor het Brits Engels is er een gegevensbank die eveneens gebaseerd is op tien miljoen woorden. Een groot verschil met het Nederlandse project is dat in de Engelse bank alleen afschriften te vinden zijn. De geluidsbestanden zelf kunnen niet meer afgeluisterd worden. Voor andere talen bestaat helemaal nog niets vergelijkbaars: niet voor het Frans, niet voor het Duits, en zelfs niet voor het Amerikaans Engels. `Ik weet zeker dat onze Amerikaanse collega's het water in de mond loopt als ze onze gegevensbank zien', zegt Baayen.

Het Nederlands kan ook wel een steuntje in de rug gebruiken. De taaltechnologie -- de verzameling technieken om computers met taal te laten werken -- wordt steeds geavanceerder en steeds duurder. Het gevaar bestaat dat die technieken alleen voor het Engels ontwikkeld worden, omdat de technologische kennis over die taal nu eenmaal het grootst is. Dit project zal het makkelijker maken ook producten voor het Nederlands te bouwen. Bedrijven en onderzoeksinstellingen krijgen nu in een klap een grote hoeveelheid materiaal in handen waarmee ze hun producten kunnen uitproberen en verfijnen.

Maar er zit niet alleen een technologische kant aan de zaak. Ook mensen die methodes `Nederlands voor buitenlanders' ontwikkelen zullen van de gegevens kunnen profiteren. Eindelijk kunnen ze nu systematisch nagaan hoe het Nederlands echt klinkt, zodat ze nog beter kunnen onderzoeken hoe ze anderstaligen moeten leren op een natuurlijke manier te spreken. Ook de taalkundigen zelf zullen van deze kennis kunnen profiteren. Nooit eerder hadden ze de mogelijkheid om zo systematisch de gesproken taal te bestuderen.

DE EERSTE GAAP

Hoe verzamelt een onderzoeker tien miljoen gesproken woorden? Waarschijnlijk zal een groep vrijwilligers uit het hele taalgebied worden geselecteerd, die opnamen van hun alledaagse taalgebruik zullen maken. `Het is niet de bedoeling dat die vrijwilligers dialect spreken,' zegt Baayen, 'al mag er best een Groningse of Vlaamse tongval doorheen klinken.' Die vrijwilligers worden uitgerust met opname-apparatuur. `Ze zetten die apparatuur 's ochtends vroeg bij de eerste gaap aan, en 's avonds na het laatste gesprek in bed zetten ze hem weer uit.' Geven ze zo niet erg veel privacy weg? `Nou, onder bepaalde voorwaarden mogen ze af en toe wel de knop omdraaien.'

Bovendien krijgen de vrijwilligers een stapel formulieren mee. Alles wat hun gesprekspartners zeggen, wordt ook opgenomen en komt dus ook in de gegevensbank terecht. Op de formulieren moeten al die mensen -- de jongen achter de kassa, de receptioniste, de beste vriend -- hun toestemming geven, en bovendien liefst ook wat informatie verstrekken over hun eigen achtergrond.

De opnamen worden ingeleverd, door de onderzoekers uitgeschreven, ontleed en van extra informatie voorzien. Zo moet binnen vijf jaar de gegevensbank gestaag groeien tot de geplande tien miljoen woorden bereikt zijn.

Ondanks het enthousiasme van de onderzoekers zal de elektronische gegevensbank niet op een grote publieke belangstelling hoeven te rekenen. Maar de medewerkers aan zullen niet alleen een middel hebben gecreëerd waarop allerlei taalwetenschappers hun ideeën kunnen testen. `We zullen ook voor het nageslacht op een vrij systematische manier hebben vastgelegd hoe mensen rond de wisseling van het millennium spraken', zegt Baayen. `We zullen een klein monumentje voor het Nederlands hebben opgericht.' Een monumentje dat past in de palm van je hand.