De positie van het Nederlands in automatische vertaalsystemen in de Europese Unie

Marc van Oostendorp

Verschenen in Taalschrift 1997 (2)

Wie wil weten of de computers van de Europese Commissie uit en naar het Nederlands kunnen vertalen, moet eerst Engels leren. Veel recente officiële documenten zijn, bijvoorbeeld via Internet, snel te raadplegen. Alleen staan die teksten daar de eerste tijd vaak alleen in het Engels. Na enkele maanden verschijnen weliswaar vertalingen, maar dan vaak eerst in de `grote talenâ, Duits en Frans. Wie alleen Nederlands verstaat, is nauwelijks up-to-date.

Die stand van zaken is kenmerkend. Hij laat zien dat goede en snel werkende vertaalsystemen belangrijk zijn voor de Europese democratie. Op zijn minst de verantwoordelijke ambtenaren en politici moeten de stukken waarop ze hun beleid baseren in hun eigen taal tot zich kunnen nemen. Het recht van Engelstaligen is wat dit betreft natuurlijk niet groter dan dat van Nederlands-, Frans- of Griekstaligen.

Nu zijn menselijke vertalers weliswaar vaak erg goed, maar meestal ook duur en langzaam, zodat lang niet alle teksten vertaald kunnen worden en zeker niet onmiddellijk. Wat zou het prettig zijn als iedere ambtenaar van de Unie met één druk op de knop in zijn tekstverwerker een zojuist gemaakt bestand kon opslaan in versies voor alle officiële talen van de Europese Unie.

Zo ver is het nog lang niet. Over de vertaalcomputer wordt al nagedacht sinds in de jaren veertig de eerste computer gebouwd, maar met één druk op de knop lukt het nog altijd niet. Meer dan twintig jaar geleden, in 1976, nam de toenmalige EEG het automatische vertaalsysteem Systran in gebruik. Het systeem vertaalt tegenwoordig ongeveer 100.000 bladzijden tekst per jaar voor ambtenaren en politici, zowel bij de Europese instanties (Europees Parlement, Europese Commissie, enzovoort) als bij de regeringen van de lidstaten. Het is daarmee waarschijnlijk het productiefste vertaalsysteem van Europa.

Toch is het allesbehalve verfijnd. De uitvoer geeft in het beste geval een globaal idee van de inhoud van het vertaalde document. Het systeem biedt dus niet meer dan een tussenoplossing. Iemand die snel kennis wil nemen van de strekking van een bepaald ambtelijk stuk, kan het door Systran laten vertalen. Daarna kan hij of zij bepalen of de tekst moet worden vertaald door een echte, menselijke, vertaler: de uitvoer van Systran is zelf niet van een voldoende hoog niveau om gepubliceerd te worden.

Die vertaler zou vervolgens bij zijn werk gebruik kunnen maken van de ruwe vertaling die het systeem biedt. Zoân manier van werken, die postediting genoemd wordt, is in het verleden ook wel aangeprezen als een groot voordeel van vertaalcomputers. Postediting zou de vertaler veel werk besparen, omdat hij alleen de uitvoer van de computer hoefde bij te vijlen. In de praktijk werkt het niet zo. Professionele vertalers vertalen liever alles zelf, in een keer goed, in plaats dat ze de grove producten van Systran corrigeren.

Voor het Nederlands wordt Systran overigens nauwelijks gebruikt. De nadruk ligt op de drie werktalen van de Europese Commissie, het Engels, het Frans en het Duits. Tussen die drie talen kan naar hartelust vertaald worden: van het Frans naar het Engels, van het Engels naar het Frans, van het Frans naar het Duits, enzovoort.

Uit het Nederlands kan Systran helemaal niet vertalen, en naar het Nederlands alleen vanuit het Engels en het Frans, niet uit het Duits. Het eerstgenoemde soort vertaling maakt maar ongeveer anderhalf procent uit van het totaal aantal vertalingen. Uit het Frans wordt iets vaker vertaald: ongeveer 4% van alle vertalingen die Systran in Europa maakt gaan van die taal naar het Nederlands.

Voor de Europese Commissie hebben vertalingen van en naar het Nederlands ook geen prioriteit. De Commissie geeft van oudsher voorrang aan verbetering van automatische vertalingen tussen de drie werktalen. Onderlinge vertalingen tussen het Frans en het Engels vormen het paradepaardje van Systran. Deze vertalingen geven een behoorlijke indruk van de inhoud van een document. Op dat niveau moeten vertalingen tussen het Duits en het Engels en tussen het Duits en het Frans ook komen. Wie wat meer aandacht wil voor een kleinere taal, doet er goed aan zelf te investeren. De Nederlandse Taalunie is dan ook sinds 1994 in overleg met de Commissie over samenwerking om het Nederlands een belangrijker plaats te geven in het vertaalsysteem.

Naar welke talen kan het best vertaald worden? Er werd al snel gekozen voor vertalingen vanuit het Nederlands. Nederlandstaligen beheersen over het algemeen voldoende Frans, Duits en Engels om in ieder geval documenten in die talen te kunnen begrijpen. Het is belangrijker om uit het Nederlands naar de drie grote talen te kunnen vertalen. Zo kunnen zoveel mogelijk anderstalige ambtenaren en politici kennisnemen van teksten die in het Nederlands zijn opgesteld.

Al in 1994 stuurden de verantwoordelijke ministers in het Nederlandse taalgebied een intentieverklaring aan de Europese Commissie. Samen zouden ze ongeveer 280.00 gulden (ofwel 5,6 miljoen BEF) bijdragen om de gewenste modules aan Systran toe te voegen.

Ondertussen was de Europese Commissie echter van gedachten veranderd. Systran was niet langer het enig vertaalsysteem waarmee de officiële Europese instanties zouden werken. Men zou bekijken of andere bedrijven vergelijkbare of misschien zelfs betere computerprogrammaâs konden leveren.

Systran is een robuust systeem, maar het heeft ook veel problemen. Een zoân probleem is dat het werkt met aparte modules voor taalparen. De vertalingen van het Frans naar het Engels wordt als het ware gemaakt door een heel ander programma dan die van het Frans naar het Duits, of van het Duits naar het Engels. Dat betekent dat er evenveel programmamodules nodig zijn als taalparen. En dat betekent weer dat het aantal benodigde modules enorm groeit naarmate het aantal opgenomen talen toeneemt.

Hoe meer talen toegevoegd worden, des te sterker het aantal taalparen toeneemt. Een kleine rekensom kan dat verhelderen. Er staan op dit moment elf landen op de kandidatenlijst om toe te treden tot de Unie. Voorbeelden zijn Polen, Hongarije, Cyprus en Roemenië. Als alle aanvragen gehonoreerd worden, komen er tien talen in de Unie bij. Zelfs als er maar één taal zou worden toegevoegd, komen er al tweeëntwintig taalparen bij. Dat zou betekenen dat er tweeëntwintig nieuwe programmamodules bijbesteld zouden moeten worden bij de Luxemburgse firma Gachot SA. En dat terwijl nog geen fractie van de modules die nu al nodig zijn op een bevredigend niveau staan.

Het ligt voor de hand om ook alternatieven te bekijken, al is het maar omdat die voor sommige van de onderontwikkelde taalparen al redelijk tot behoorlijk goed werkende computersystemen hebben gebouwd. Zo heeft het bedrijf Siemens-Nixdorff voor de Belgische federale overheid een systeem ontwikkeld voor de vertaling tussen het Nederlands en het Frans. Dat systeem zou ook in aanmerking komen.

Overigens wordt op deze manier het probleem van Systran nog steeds niet echt opgelost. Nog steeds neemt het aantal benodigde taalmodules toe bij elke nieuwe taal in de Europese Unie. Om dit te beperken zal eerst geprobeerd worden vertaalmodules te maken die Frans, Duits en Engels kunnen vertalen uit en naar de andere officiële talen van de Unie. Het taalpaar Nederlands-Spaans zal volgens die richtlijn dus nog wel even op zich laten wachten.

Aan één voorwaarde zullen de systemen in ieder geval moeten voldoen. Ze moeten het eigenlijke vertaalprogramma gescheiden houden van het vertaalwoordenboek. Een goed vertaalprogramma bestaat op zijn minst uit deze twee onderdelen. Het programma kent de grammaticaregels van de twee talen. De te vertalen woorden zoekt het daarbij op in een tweetalige woordenlijst. Het is van belang om de twee dingen uit elkaar te houden, omdat er relatief veel tijd en geld wordt gestoken in de woordenlijst.

`Die investeringen willen we niet weggooien op het moment dat de software verouderd is,â zegt J. Roukens, die bij de Europese Commissie werkt aan het nieuwe actieprogramma van die Commissie, Multi Lingual Information Society (MLIS, `Meertalige Informatiemaatschappij). In het kader van dit programma zullen allerlei projecten worden bekostigd die op de een of andere manier de veeltaligheid in het elektronische tijdperk bevorderen. Systemen voor automatisch vertalen horen daar uiteraard bij: geen veeltaligheid zonder vertalingen. Ook de samenwerking met de Taalunie zal uit de gelden voor dit actieprogramma bekostigd worden.

De Taalunie heeft een aanvraag ingediend om het vertaalproject onder te brengen in het MLIS-programma. Als deze aanvraag gehonoreerd wordt, zal men moeten kiezen welk product of welke producten in gebruik zullen worden genomen. Die vertaalprogrammaâs zullen eerst uitgebreid worden getest, door ervaren vertalers, taaladviseurs, en deskundigen op het gebied van taal en techniek. Het zal nog wel even duren voordat de Nederlandse modules op het niveau van het taalpaar Frans-Engels zijn.

Zijn andere landen ook al bezig? Roukens zegt dat Nederland en Vlaanderen in ieder geval het voordeel hebben van samenwerking in de Taalunie. `Dat geldt lang niet voor alle talen.â Bovendien is ook gewoon niet iedereen even geïnteresseerd. Engeland investeert bijvoorbeeld bijzonder weinig. In zekere zin heeft dat land ook geen investeringen nodig. Die doen anderen wel. Als de Taalunie, Nederland, Vlaanderen en de Europese Commissie een programma laten maken om vertalingen te maken uit het Nederland naar het Engels, profiteren de Engelstaligen daar in zekere zin ook van.

De Franse regering investeert wel veel geld in projecten die de positie van het Frans in de nieuwe media verstevigen. Zo probeert ze een Frans tegenwicht te bieden tegen de hegemonie van het Engels op het wereldwijde Internet. Dat betekent overigens niet dat ze zou investeren in een vertaalprogramma Frans-Nederlands.

Ook een land als Duitsland heeft voorlopig nog geen belangstelling getoond voor vertalingen uit of naar het Nederlands, terwijl het wel degelijk belang heeft bij ontwikkeling van vertaalmodules. Het Duits is van de drie grote talen het zwakst vertegenwoordigd in Systran, maar de rol van die taal binnen de Europese Unie is de laatste jaren steeds sterker geworden. `Misschien dat er afspraken te maken zijn dat het Duitstalige taalgebied investeert in een vertaalmodule Duits-Nederlands,â hoopt Johan Van Hoorde, die namens de Nederlandse Taalunie betrokken is bij het automatische vertaalproject van de Europese Unie. `In ruil voor ons werk aan een module Nederlands-Duits.â Voorlopig is daarover echter nog geen enkel contact gelegd met de eventuele Duitstalige partners.

Wat de grote landen ook doen, het blijft belangrijk dat het Nederlands goed vertegenwoordigd wordt. Daar zijn politieke redenen voor. Door te investeren in automatische vertaalsystemen laat het Nederlands taalgebied zien dat de rol van het Nederlands als officiële taal van de Europese Unie serieus genomen wordt. Maar er zijn ook andere argumenten. Met deze projecten kunnen we veel kennis worden opdoen die ook weer bij andere computertoepassingen voor taal- en tekstverwerking zouden kunnen worden gebruikt; toepassingen die het mogelijk maken om efficiënt Nederlandse teksten te bewerken, te raadplegen en te doorzoeken bijvoorbeeld. Naar verwachting worden dit soort systemen in de toekomst nog veel efficiënter en economisch belangrijker dan ze nu al zijn.

Het is belangrijk dat het Nederlands ook in de moderne technologie een rol blijft spelen. `Als we het niet opbrengen,â schreef de Nijmeegse hoogleraar Lou Boves onlangs, `zal het Nederlands als cultuurtaal het jaar 2050 niet halen. Het zal dan zoveel gemakkelijker zijn om teksten te maken in met name het Engels dan in het Nederlands, dat geen enkel bedrijf het zich kan veroorloven om het inefficiënte en ineffectieve Nederlands serieus te nemen.â

Dat lijkt misschien wat sterk uitgedrukt, maar de ontwikkelingen op elektronisch gebied gaan, zoals bekend, snel. Nederland en Vlaanderen hebben hier in elk geval een gezamenlijk belang. Het is voor het hele Nederlandse taalgebied even belangrijk dat teksten in het Nederlands in Europa toegankelijk zijn. Het is voor het hele taalgebied even belangrijk dat het Nederlands een rol blijft spelen in de nieuwe media.

De aangehaalde woorden van Boves komen uit een boekje Taal voor het Leven, uitgegeven door de Faculteit der Letteren, Katholieke Universiteit Nijmegen, 1997. Boves is daar KPN Hoogleraar Spraaktechnologie en haar Toepassingen.