Nu steeds meer communicatie via e-mail en telefoon verloopt, kan er ook steeds beter afgeluisterd worden. Hoe kunnen computers helpen om uit miljoenen berichten precies dat ene verdachte mailtje te halen? En hoe kunnen computergebruikers geheime boodschappen zo verstoppen dat niemand ze kan zien?

Een moord beramen met vakantiekiekjes

Teksten (de)coderen met de computer

Marc van Oostendorp

(Dit artikel verscheen in Onze Taal, november 2001)

Nadat de torens van het World Trade Center in New York waren ingestort, vroegen sommige mensen zich af of er wel goed genoeg was afgeluisterd. De daders van de aanslag moeten van tevoren contact met elkaar hebben gehad, en daarvoor hebben ze misschien e-mail of telefoon gebruikt. Waarom had niemand die e-mails gelezen of die telefoongesprekken gehoord?

Je zou zeggen: er is geen beginnen aan om de enorme hoeveelheid berichten die de wereld rondgaat te onderscheppen. Maar de afgelopen jaren hebben de Verenigde Staten samen met enkele andere landen juist een grootschalig afluisterproject opgezet, dat 'Echelon' wordt genoemd. Er zouden honderden miljoenen dollars gestoken zijn in een infrastructuur die het mogelijk maakt grote delen van de westerse wereld in de gaten te houden. Kennelijk was al dat geld niet genoeg om de daders van de aanslag te kunnen betrappen.

Kabels aftappen

Hoe werkt zo'n grootschalig afluisterapparaat? Het is onmogelijk om alles te laten afluisteren door mensen. Er moeten dus computers aan te pas komen. Maar hoe werken die computers? Hoe vinden zij de verdachte berichten in de enorme stroom informatie die de hele dag de wereld rondgaat? En hoe kunnen mensen die computers weer misleiden?

Hoe Echelon werkt, is niet precies bekend, maar hoe de taalkundige kern eruitziet, weten we wel. Geheime diensten werken al sinds de jaren veertig van de vorige eeuw met lijsten met 'verdachte woorden' - in het eenvoudigste geval zouden dat bom, Irak en vliegtuig kunnen zijn. Tot in de jaren zeventig werden deze lijsten door ambtenaren van geheime diensten gebruikt om razendsnel honderden telexen en telegrammen te scannen. Ze leerden de verdachte woorden uit hun hoofd en schoten door de documenten heen. Als deze een 'verdacht woord' bevatten, werden ze apart gelegd voor nadere analyse.

De computer kan zoiets veel sneller. Wie weleens een zoekmachine op internet heeft gebruikt, weet dat. Als je een zoekwoord intikt, krijg je binnen korte tijd een lijst terug met tientallen en soms wel honderden webpagina's waar dat woord op voorkomt. Op dezelfde manier kun je e-mailberichten doorzoeken. Er wordt bijvoorbeeld gezegd dat de belangrijkste kabels waarmee e-mails de Atlantische Oceaan oversteken, afgetapt worden door de geheime diensten die achter Echelon zitten. Hun computers laten de meeste berichten door, maar van elke miljoen gescande berichten worden er pakweg duizend apart gelegd om nog nader te worden bestudeerd door een menselijke analist. Bovendien kan de computer de documenten doorzoeken op verschillende 'profielen' - een document dat de woorden koningin en gijzeling bevat, gaat in een ander mapje dan een document met de woorden bedrijfsgeheim en koersdaling.

Weggegooide berichten

Er is wel een probleem: in de internationale communicatie worden duizenden verschillende talen gebruikt. Je kunt dat probleem oplossen door het aantal woordenlijsten te vermenigvuldigen, maar er zijn ook programma's die talen kunnen herkennen. Ze doen dat met behulp van statistische profielen. In het Engels neemt de letter a zoveel procent van een gemiddelde tekst in, in de Filippijnse taal Tagalog is dat een paar procent meer. Wie zo voor alle letters, en allerlei kleine woordjes, een frequentie-index opstelt, krijgt een statistisch profiel voor een taal.

Overigens is een score van één apart gelegd bericht op de duizend die er langskomen natuurlijk nog steeds niet erg hoog - vooral niet omdat daarmee nog niet is bepaald hoeveel van de opzij gelegde berichten daadwerkelijk interessant zijn, en hoeveel van de doorgelaten berichten niet óók waardevolle informatie bevatten.

Transatlantische telefoonkabels

Het elektronisch meelezen werkt bovendien alleen voor geschreven berichten. Telefonische conversaties automatisch afluisteren is heel wat lastiger. Dat komt doordat computers nog steeds grote moeite hebben om gesproken taal te verstaan. Ieder mens is verschillend en spreekt zijn woorden op een net iets andere manier uit. Dat maakt het niet gemakkelijk om heel snel de miljoenen gesprekken die op elk willekeurig moment via transatlantische telefoonkabels en via het mobiele netwerk gevoerd worden, automatisch af te luisteren.

Toch maakt Echelon voorzover bekend wel gebruik van automatische spraakherkenning. De geheime diensten beschikken waarschijnlijk over heel geavanceerde computers en bovendien zal er heel gericht worden afgeluisterd. Alleen enkele 'verdachte' personen zijn het doelwit. Van zulke personen kan de computer de uitspraakeigenaardigheden na verloop van tijd makkelijker herkennen. Bovendien kan hij wat meer tijd nemen om het gesproken woord te analyseren.

Versleutelingswedloop

Al met al lijkt het nogal moeilijk om alle communicatie die er dag in, dag uit de wereld rondgaat écht automatisch te volgen. De taaltechnologie is daar nog lang niet ver genoeg voor gevorderd. Bovendien is het tamelijk makkelijk om aan al dat afluisteren te ontsnappen, bijvoorbeeld door je berichten te versleutelen.

De eenvoudigste manier om dat te doen, wordt gebruikt door kinderen die elkaar een geheimpje willen schrijven. Ze vervangen elke a door een b, elke b door een c, elke c door een d, enzovoort. Het probleem in de grotemensenwereld is dat een computer zo'n code makkelijk kan kraken. Hij kan elke mogelijke sleutel uitproberen en kijken of er een tekst uitkomt die zinnig lijkt (bijvoorbeeld doordat er woorden in voorkomen die in het woordenboek staan). Een wat geavanceerder manier om een code te kraken, is door gebruik te maken van taalstatistiek: als je weet dat een versleuteld bericht in het Nederlands is opgesteld, weet je ook dat de letter e er waarschijnlijk heel vaak in voorkomt, evenals de woordjes de, een en van, en dat maakt het decoderen eenvoudiger.

Er is de laatste jaren een wedloop ontstaan tussen versleutelaars aan de ene kant en codekrakers aan de andere. De computerprogramma's die de versleutelaars gebruiken, lijken vooralsnog aan de winnende hand, maar codes waarvan enkele jaren geleden werd gezegd dat ze 'nooit' zouden kunnen worden gebroken, blijken nu toch gekraakt te kunnen worden - al moeten daarvoor dan wel heel veel aan elkaar geknoopte computers gebruikt worden.

Berichten verbergen

Steganografie - de techniek om berichten te verbergen in andere, onschuldiger berichten - is al zo oud als de spionage. De oude Grieken schreven op wastabletten, stukken hout waarop een waslaag was aangebracht. Door eerst iets op het hout te schrijven en daaroverheen een laag was aan te brengen (met een nieuwe boodschap), kon een bericht onzichtbaar worden doorgegeven. Een dergelijke techniek werd tot in de Eerste Wereldoorlog gebruikt: men schreef met onzichtbare inkt een tekst op een blaadje papier waarop in gewone inkt iets heel anders stond.

Maar er werden ook op andere manieren teksten in andere teksten verborgen. Tijdens de Tweede Wereldoorlog stuurde een Duitse spion het volgende Engelstalige bericht:

Apparently neutral's protest is thoroughly discounted and ignored. Isman hard hit. Blockade issue affects pretext for embargo on by-products, ejecting suets and vegetable oils.
(Het protest van de kennelijk neutralen is zorgvuldig neergeslagen en genegeerd. Isman hard geslagen. Blokkadekwestie beïnvloedt het excuus voor een embargo op afvalproducten, door niervetten en plantaardige oliën uit te stoten.)

Door van elk woord de tweede letter te nemen krijgen we het échte bericht:

Pershing sails from NY June I.
(Pershing vertrekt op 1 juni uit New York.)

Achterdeurtje

Computerprogramma's voor versleutelingen worden vaak zonder criminele bedoelingen gemaakt, door onverdachte bedrijven, maar ze worden natuurlijk ook misbruikt. En omdat het voor de politie vaak erg lastig is om versleutelde berichten te lezen, dringt zij er bij zulke bedrijven geregeld op aan om in alle versleutelingen een 'achterdeurtje' in te bouwen, dat desgewenst door overheidsinstellingen kan worden geopend.

Volgens deskundigen is het echter maar de vraag of het zin heeft zo'n achterdeurtje verplicht te stellen, want wie echt kwaad wil, kan gebruikmaken van veel vernuftiger manieren om geheime berichten te versturen. Je kunt je woorden zorgvuldig verstoppen in een ingescande foto, of in een muziekje. Een digitale foto is opgebouwd uit miljoenen kleine puntjes. Als je af en toe een puntje een klein beetje van kleur verandert, is dat met het blote oog niet te zien. Maar je kunt met elkaar afspreken dat de veranderingen in (bijvoorbeeld) elk vijftiende puntje staan voor een bepaalde letter, en dat alle letters achter elkaar een boodschap vormen. Op die manier kun je een correspondentie over een moordaanslag verbergen in een uitwisseling van vakantiekiekjes, of in de strijkkwartetten van Beethoven.

Maar de mooiste - en wie weet ook wel de effectiefste - manier om je berichten te verbergen is gebruik te maken van de rijkdom van het menselijke talen. Eerder dit jaar werden in Amerika de laatste overgebleven Navajo-indianen geŽerd die in de Tweede Wereldoorlog als tolk voor het Amerikaanse leger hadden gewerkt. Hun taal was zo ingewikkeld en onbekend dat de (Japanse) vijand er niets van begreep. Zij hadden geen enkel technisch middel nodig gehad om hun boodschap onherkenbaar te maken.