Gevorderd zoeken op Internet

Marc van Oostendorp

Geschreven voor Praktijkgids Internet, 1996.

Het World Wide Web heeft bijna overal een oplossing voor. Als nadeel van dit medium wordt wel genoemd dat het zo moeilijk is er de documenten te vinden die je zoekt. Zelfs voor dat probleem is er op Internet een oplossing te vinden: zoekprogramma's. Zoals bekend zijn er programma's op het web te vinden die het mogelijk maken door enkele tientallen miljoenen pagina's tegelijkertijd te zoeken. Nu kleven ook aan deze zoeksystemen weer enkele problemen. Maar ook voor deze problemen zijn weer oplossingen. Wie de kneepjes van het vak kent, kan over het algemeen wel vinden wat hij of zij zoekt.

De zoeksoftware die grote indexen gebruiken wordt steeds vernuftiger en subtieler. Het wordt dan ook steeds gemakkelijker om heel precieze zoekopdrachten te geven. Op de volgende pagina's geef ik een paar tip om de zoekmachines AltaVista en HotBot nog effectiever in te zetten bij uw zoekopdrachten. Ik ga er daarbij vanuit dat u de technieken die besproken worden in al kent. Een ander belangrijk hulpmiddel is de zogenaamde metazoekmachine: stukken software die een groot aantal zoekrobots tegelijkertijd laten zoeken. Hiervan bespreek ik er drie: de programma's Dogpile, Metafind en Inference Find. Tenslotte bespreek ik een paar trucs om zelf wat slimheid toe te voegen aan het zoekproces.

Gevorderd zoeken bij AltaVista

Er is geen twijfel over mogelijk: AltaVista (http://www.altavista.digital.com/) is in ongeveer anderhalf jaar tijd uitgegroeid tot de populairste zoekmachine op Internet. Dat is niet ten onrechte, want de technologie achter dit door het computerbedrijf Digital ontwikkelde programma is meestal net een stapje voor op de concurrentie.

Zo maakt AltaVista het sinds kort mogelijk om het aantal gevonden pagina's drastisch te beperken door alleen te zoeken op documenten die in een bepaalde taal -- bijvoorbeeld het Nederlands -- zijn gesteld. Wie bijvoorbeeld op 'Karel Appel' zoekt krijgt al snel meer dan 10.000 documenten:

[Afbeelding]

Het derde document dat hier gepresenteerd wordt, is gesteld in het Italiaans. AltaVista meldt dit trouwens zelf: het laatste woord van de beschrijving (in cursieve letters) is Italian. Omdat ik geen Italiaans lezen kan, is het onwaarschijnlijk dat ik iets aan dit document heb. Ik zou daarom liever willen dat dit soort documenten -- evenals de levensbeschrijvingen van Appel die gesteld zijn in het Estlands of het Japans -- niet aan mij gepresenteerd worden.

Boven het veld waarin u de zoekopdracht kunt geven is daarvoor een veld opgenomen waarin u de taal van uw keuze kunt aangeven. In dit veld staat op dit moment waarschijnlijk de tekst 'any language'. Door op het pijltje naast deze tekst te drukken, komt er een lijst met mogelijkheden te voorschijn. Nederlands (Dutch) is een van deze mogelijkheden. Als u hem kiest, worden alleen Nederlandstalige bestanden geretourneerd. In dit geval beperkt dat het aantal uiteindelijk gevonden documenten tot ongeveer 1300 -- minder dan een zevende van het in eerste instantie gevonden aantal:

[Afbeelding]

Overigens bepaalt de computer van AltaVista zelf voor elk document in zijn index, in welke taal dat document gesteld is. Hoe hij dat doet, is niet precies bekend buiten de muren van de fabrikant Digital, maar waarschijnlijk vergelijkt hij frequente woorden in het bestand ('de', 'het', 'een', 'en', enz.) met woorden die in het Nederlands, Engels, Duits, Estlands of Italiaans voorkomen. In de praktijk werkt deze methode goed, in de zin dat de gevonden 'Nederlandstalige' bestanden ook vrijwel altijd in het Nederlands gesteld zijn.

Aan de andere kant is naar mijn ervaring AltaVista soms iets te streng: niet alle Nederlandstalige bestanden die wel in de complete lijst staan als we zoeken onder any language, komen terug in de lijst met weblocaties die AltaVista als Nederlands herkent. Als u dus echt álle informatie zoekt die over een bepaald onderwerp in het Nederlands geschreven is, kunt u beter de mogelijkheid Dutch niet aanzetten.

Zoeken in het Nederlands

Het is niet alleen mogelijk om te zoekopdracht te beperken tot Nederlandstalige documenten, u kunt ook de interface van AltaVista zelf Nederlandstalig maken. Bovendien heeft het bedrijf Digital her en der over de wereld kopieën van het zoekprogramma geplaatst. Door een versie van AltaVista te kiezen die bij u in de buurt ligt, kunt u over het algemeen iets sneller werken. Want al lijkt op Internet zelfs Singapore dichtbij, ook hier geldt: hoe korter de lijn, des te sneller de verbinding.

Boven aan het openingsscherm van AltaVista vindt u een landkaartje waarop enkele vierkantjes staan:

[Afbeelding]

Door op een vierkantje te klikken, komt u op de lokale kopie van AltaVista. Op het moment van schrijven waren er twee locaties in Europa: een in Scandinavië, en een in Spanje. Wanneer u dit leest, kunnen dit er best meer zijn want het netwerk van AltaVista-computers breidt zich gestaag uit. In dit voorbeeld kies ik echter voor de AltaVista-computer in Noord-Europa. (Deze kunt u overigens ook direct bereiken op http://www.altavista.telia.com/).

U komt nu in een venster waarin u een aantal mogelijkheden kunt instellen:

[Afbeelding]

U stelt hier het land in waar u op dit moment verblijft (bijvoorbeeld The Netherlands) en de taal waarin u toegesproken wenst te worden (bijvoorbeeld Dutch). Als u hiermee klaar bent, kiest u de mogelijkheid go.

U komt nu in de Nederlandstalige versie van AltaVista. Als dit de versie is die u voortaan wilt gebruiken, is het raadzaam om hier een bookmark ('boekenlegger', 'favoriet') te maken, zodat u niet elke keer door de hele procedure van het instellen van taal en land heen hoeft als u iets op te zoeken hebt.

Een voordeel van de Nederlandstalige versie is dat hij de voorkeur geeft aan Nederlandstalige documenten, ook als u niet expliciet naar ze zoekt. Zoekt u op elke taal dan worden documenten in elke taal gegeven; maar de Nederlandstalige staan in de regel bovenaan.

Een nadeel van deze versie is echter dat hij vooralsnog niet zulke uitgebreide mogelijkheden biedt als de Engelstalige. De eenvoudige en iets uitgebreidere manieren om te zoeken die al sinds jaar en dag op de Amerikaanse site van AltaVista uitgevoerd kunnen worden, kunt u ook hier proberen. Maar de Amerikaanse weblocatie biedt vooralsnog meer. We keren daarom naar deze laatste versie terug.

De zoekopdracht verfijnen

Als we naar 'Karel Appel' zoeken, en we beperken ons tot Nederlandstalige documenten, vindt AltaVista nog steeds een enorm aantal documenten. Sinds enige tijd kunt u de verzameling echter op een intelligente manier verder inperken.

AltaVista heeft namelijk een enorm systeem gemaakt van begrippen die aan elkaar gekoppeld zijn. Dat systeem werkt ongeveer zoals wij mensen begrippen met elkaar associëren. Het woord 'appel' wordt geassocieerd met 'peer', omdat de woorden 'appel' en 'peer' vaak in elkaars nabijheid voorkomen. AltaVista onderzoekt op deze manier de complete lijst met documenten waarin de naam 'Karel Appel' voorkomt, en probeert op deze manier uit te vinden welke associaties er in deze documenten vaak gelegd worden.

U krijgt deze lijst te zien door op de knop Refine te drukken, die u vindt naast de knop Search:

[Afbeelding]

Er verschijnt nu een lijst die er ongeveer als volgt uitziet:

[Afbeelding]

Zoals u hier al ziet zijn niet alle associaties even zinnig. Zo wordt de naam 'Karel Appel' hier kennelijk verbonden met koning Lodewijk, een verband dat op zijn zachtst gezegd vergezocht is. Aan de andere kant lijkt de associatie met 'tentoonstellingen' en 'collecties' juist wel heel gunstig.

Naast elke lijstje met associaties vindt u een percentage in rode cijfers. Deze percentages duiden aan hoeveel documenten (van de oorspronkelijk gevonden 1300) met de desbetreffende associatie verbonden kunnen worden. Zo heeft kennelijk achtentwintig procent van de documenten iets te maken met Lodewijk, en zesentwintig procent iets met kunstenaars.

U kunt nu voor elk van de associaties opgeven of u wilt dat deze worden toegepast bij het verder zoeken. Naast elk lijstje met associaties vindt u een menu waarin u kunt kiezen uit drie mogelijkheden: blanco, require (vereis) en exclude (sluit uit). Wanneer u 'blanco' kiest (drie puntjes) gebeurt er niets met de desbetreffende associatie. In het bovenstaande voorbeeld kiest u deze mogelijkheid bijvoorbeeld voor 'Zaterdag, zondag, etc.' Het is onduidelijk of het wel of niet gunstig is als deze termen in de gevonden documenten voorkomen.

Voor 'Kunstenaars, enz.' kiezen we 'require': we willen alleen documenten zien waarin dit soort woorden voorkomt. Voor 'Lodewijk, koning, enz.' kunnen we daarentegen best 'exclude' kiezen. Documenten die daarover gaan, hoeven we niet te zien.

[Afbeelding]

Nadat u aldus het aantal documenten wat hebt teruggebracht, kunt u verder gaan met zoeken. Onderaan de lijst vindt u nogmaals de twee knoppen 'search' en 'refine'. Drukt u op de eerste, dan krijgt u de lijst met weblocaties te zien, die volgens uw specificaties verkleind is. Kiest u op de tweede, dan krijgt u nogmaals een lijst met associaties (meestal een kortere lijst), zodat u desgewenst de totale database nog verder kunt verkleinen.

Associatienetwerk

Helemaal boven aan de lijst vindt u overigens een knop die u desgewenst lijdt naar een geheel andere manier om de associaties te presenteren: in een plaatje (een graph):

[Afbeelding]

U krijgt nu een interactief plaatje te zien -- voor de liefhebbers: een Java-programma -- waarin alle associaties zijn opgenomen. Het duurt over het algemeen bij een gemiddelde verbinding wel een paar minuten voor dit plaatje helemaal is opgebouwd, maar dan krijgt u ook een interessante presentatie van alle mogelijke associaties. U vindt hier niet alleen alle lijstjes met associaties, deze associaties zijn ook nog eens onderling verbonden.

Als u uw muis boven een steekwoord plaatst, krijgt u de inhoud van een lijstje te zien.

[Afbeelding]

In dit voorbeeld ziet u dus niet alleen het lijstje steekwoorden dat begint met 'Kunstenaars', maar ook dat dit lijstje inhoudelijk nauw verbonden is met een andere lijst die begint met 'Artistieke'.

Ook hier kunt u zoektermen uitsluiten of juist verplicht stellen. U kunt hier zelfs nog iets preciezer zijn dan in de vorige toepassing die we gezien hebben. Niet alleen lijstjes maar ook individuele zoektermen kunt u markeren als verplicht of verboden. U doet dit door te klikken op het witte vierkante hokje naast een zoekterm.

Als u een keer klikt, verschijnt een groen V-tekentje: deze zoekterm is verplicht. Klikt u daarna nog een keer, dan verschijnt een rood kruisje: deze zoekterm is verboden. Klikt u overigens nu ten derde male, dan wordt het hokje weer blanco.

Een hele lijst met zoektermen stelt u hier verplicht of verbiedt door een- of tweemaal op de bovenste term te klikken.

[Afbeelding]

Nadat u op deze manier het te doorzoeken associatienetwerk van documenten verkleind hebt, kunt u weer op een van de knoppen search of refine drukken, om de aldus ontstane, kleinere verzameling documenten te doorzoeken.

HotBot

AltaVista is zoals gezegd waarschijnlijk het meest geavanceerde zoekprogramma dat op dit moment op Internet te vinden is. Dat wil echter niet zeggen dat dit het enige programma is, noch dat degene die serieus naar informatie zoekt kan volstaan met het gebruik van AltaVista. Weliswaar heeft het programma enkele tientallen miljoenen pagina's geïndexeerd, maar dit is maar een fractie van wat er allemaal op Internet te vinden is. Andere zoekprogramma's maken weer andere keuzes.

Een van de grootste concurrenten is op dit moment waarschijnlijk het programma HotBot van Wired, de uitgever van het gelijknamige hippe Amerikaanse computerblad. Ook HotBot heeft enkele tientallen miljoenen webpagina's in zijn geheugen staan. Naar mijn ervaring zijn vooral Nederlandstalige pagina's vaak eerder met dit programma dan met AltaVista te vinden. U vindt het op het Internet-adres http://www.hotbot.com/.

[Afbeelding]

Sinds enige tijd biedt HotBot een afdeling SuperSearch. In deze afdeling vindt u enkele bijzondere manieren om uw zoekopdracht te specificeren, op een heel andere manier dan dit bij AltaVista gebeurt.

Interessant is bijvoorbeeld dat u het soort digitale media kunt opgeven dat op de desbetreffende pagina gebruikt moet worden. Zo kunt u snel uitzoeken of er op het Web video- of audiofragmenten te vinden zijn over het onderwerp waarin u geïnteresseerd bent. De lijst is lang en omsluit onder andere de interactieve media Shockwave, JavaScript en VBScript, afbeeldingen en VRML (virtual reality modelling language, waarin virtuele werelden kunnen worden weergegeven). Op deze manier kunt u snel heel specifieke informatie vinden over het onderwerp van uw keuze.

Metazoekmachines: Dogpile

Als u alleen AltaVista gebruikt, loopt u soms essentiële informatie mis. Maar als u AltaVista én HotBot gebruikt, loopt u dat risico nog steeds. Natuurlijk kunt u een hoop problemen voorkomen door dan nog maar eens een aantal zoekprogramma's te gebruiken, zoals Lycos (http://www.lycos.com/) en Excite (http://www.excite.com/) of het Nederlandse Ilse (http://www.ilse.nl/), maar dat is een tijdrovend klusje en bovendien hebt u daarmee nog steeds geen garantie dat u ook inderdaad vindt wat u zoekt.

Gelukkig komen er steeds meer en steeds betere 'metazoekmachines' of 'multizoekmachines' (deze twee namen worden door elkaar gebruikt). Dit zijn programma's die in een keer een groot aantal zoekprogramma's tegelijkertijd voor u bedienen. Geeft u aan een metazoekmachine bijvoorbeeld op dat u naar informatie over 'Karel Appel' zoekt, dan geeft deze metazoekmachine deze opdracht automatisch door aan HotBot, AltaVista, Excite, Lycos en nog een aantal zoekmachines om vervolgens alle resultaten van deze zoekmachines op een overzichtelijke manier te presenteren.

Een voorbeeld van een dergelijk programma is Dogpile. Dit programma doorzoekt onder andere de databanken van de zoeksystemen Yahoo!, Lycos' A2Z, Excite, Go2.com, Thunderstone, What U Seek, Magellan, Lycos, WebCrawler, InfoSeek, AltaVista, Excite en HotBot voor webpagina's. Daarnaast kan het desgewenst ook soortgelijke databanken doorzoeken voor berichten in nieuwsgroepen, FTP-locaties, en Internet-nieuwszenders. Hier beperk ik me tot een zoektocht naar pagina's op het web.

[Afbeelding]

In het bovenste veld vult u de zoekterm in. Hieronder kunt u invullen welke soorten databanken u wilt doorzoeken: we beperken ons hier zoals gezegd tot het web. Bovendien kunt u opgeven hoe lang Dogpile moet wachten op elk zoekprogramma. Als u hier bijvoorbeeld 'twenty seconds' invult, wacht het programma hooguit twintig seconden nadat hij de opdracht aan bijvoorbeeld AltaVista heeft doorgegeven. Alleen de antwoorden die binnen die twintig seconden binnenkomen, worden in het overzicht opgenomen.

Over de 'zoekterm' valt nog wel het een en ander te zeggen. Zoals u ziet heb ik in het bovenstaande voorbeeld geen aanhalingstekens opgenomen. Niet alle zoekmachines die Dogpile gebruikt, kunnen namelijk met deze aanhalingstekens werken. U kunt wel de logische operatoren, AND, OR, NOT en NEAR gebruiken. Deze kunnen door Dogpile zo nodig 'vertaald' worden voor de verschillende machines.

Nadat u op de knop Fetch gedrukt hebt, begint Dogpile te zoeken. De binnenkomende resultaten worden onder elkaar in een lang bestand op uw scherm getoond, zoals in het

[Afbeelding]

De tamelijk onbekende zoekmachine Thunderstone heeft kennelijk 12 documenten gevonden die volgens Dogpile aan de criteria voldoen. Deze worden onder elkaar gepresenteerd. Wanneer u op het kopje 'Thunderstone' klikt, komt u bovendien vanzelf bij de desbetreffende zoekmachine terecht. Klikt u op de woorden 'karel appel' die eronder staan, dan laat u Thunderstone zelf nog een keer op de zoektermen zoeken.

De verschillende zoekmachines worden door Dogpile in een vaste volgorde benaderd. Op de pagina http://www.dogpile.com/custom/index.html kunt u deze volgorde desgewenst veranderen:

Normaal gesproken wordt eerst Yahoo! bevraagd, daarna Lycos, enz. Door op de pijltjes naast deze namen te klikken, en andere namen te kiezen, kunt u deze volgorde veranderen. Dogpile onthoudt deze volgorde bovendien, zodat hij ook bij eventuele volgende sessies gebruikt wordt.

Metazoekmachines: Metafind

Dogpile doorzoekt de verschillende zoekmachines na elkaar. Als AltaVista bovendien een zelfde document geeft als HotBot, dan schrijft Dogpile dit resultaat twee keer op. Veel zoekmachines werken anders: zij verzamelen eerst alle resultaten van de aangesloten zoekmachines, gooien eventuele verdubbelingen eruit, en geven de resultaten dan in een zelf bepaalde volgorde.

Een voorbeeld van een dergelijk systeem is Metafind, overigens van dezelfde makers als Dogpile. U vindt dit systeem op http://www.metafind.com/.

[Afbeelding]

U kunt ervoor kiezen de gevonden webpagina's op verschillende manieren te ordenen. In het bovenstaande voorbeeld is gekozen voor een ordening by keywords, dat wil zeggen op sleutelwoord. Eerst worden alles gegeven dat gevonden wordt met alleen het sleutelwoord 'karel', dan alles op 'appel' en vervolgens de rest. Andere mogelijkheden zijn een ordening op alfabet (de gevonden locaties worden dan in alfabetische volgorde gepresenteerd naar titel van de pagina), en naar domein. In dat laatste geval worden eerst alle locaties in België getoond (met een domeinnaam die eindigt op BE), vervolgens alle locaties in Canada (met domeinnaam die eindigt op CA) enzovoort. Het resultaat van deze laatste zoekopdracht wordt hieronder getoond:

[Afbeelding]

In veel opzichten is MetaFind iets handiger in het gebruik dan zijn broertje Dogpile: de resultaten van de zoekopdracht zijn beter gestructureerd. Daar staat tegenover dat het aantal zoekprogramma's dat MetaFind gebruikt bij zijn zoektocht is kleiner is dan dat van Dogpile. Het laatste gebruikt maar liefst twintig verschillende programma's, het eerste gebruikt er slechts zes. Als u dus op zoek bent naar iets heel zeldzaams, kunt u nog steeds beter met Dogpile zoeken dan met Metafind. Maar in andere gevallen heeft de laatste de voorkeur.

Metazoekmachines: Inference Find

Inference Find (http://www.inference.com/infind/) werkt ongeveer op dezelfde manier als MetaFind, zij het misschien nog net iets intelligenter.

[Afbeelding]

Ook dit programma doorzoekt een aantal zoekprogramma's -- in dit geval WebCrawler, Yahoo, Lycos, Alta Vista, InfoSeek, en Excite -- en ordent de resultaten, gooit dubbele antwoorden weg, en presenteert het geheel op een eigen manier. De weblocaties die iets met elkaar te maken hebben -- bijvoorbeeld omdat ze op de server van dezelfde informatieaanbieder staan -- worden bij elkaar geplaatst.

[Afbeelding]

De pagina's die Inference teruggeeft zijn naar mijn ervaring meestal van goede kwaliteit. De plaatsen die u nodig hebt, kunt u snel vinden. Toch zijn er ook nadelen aan deze zoekmachine verbonden. Zo gebruikt hij niet erg veel verschillende zoeksystemen (HotBot zit er bijvoorbeeld niet bij). Bovendien worden de gevonden resultaten wel erg droog gepresenteerd. Het is bijvoorbeeld niet mogelijk om vanuit Inference Find direct door te schakelen naar bijvoorbeeld de zoekmachine AltaVista om daar zelf de zoekactie verder te verfijnen. Inference Find blijft daarmee een tamelijk grofmazig instrument.

Slim zoeken

Hoe goed de zoekprogramma's, de multizoekprogramma's of de metazoekprogramma's ook zijn, gezond verstand blijft misschien wel het belangrijkste instrument bij elke zoektocht op het Web. Tot slot van dit overzicht van gevorderde zoektechnieken daarom een paar algemene tips.

Het belangrijkste advies is misschien om bij elke zoekopdracht te proberen zo snel mogelijk de algemene zoekprogramma's te verlaten. Het is het beste om te proberen zo snel mogelijk een gespecialiseerde pagina te vinden. Bestaan er gespecialiseerde weblocaties met koppelingen naar moderne kunst? En misschien zelfs naar informatie over Karel Appel? Goed onderhouden gespecialiseerde lijsten met koppelingen brengen u vaak sneller bij de informatie die u zoekt, zeker als die informatie niet al te specifiek is.

De bekendste algemene internationale catalogus is die van Yahoo, die u kunt vinden op http://www.yahoo.com/. De meeste Internet-providers zoals Planet Internet (http://www.planet.nl/) en World Online (http://www.worldonline.nl/) bieden op bescheidener schaal soortgelijke informatie. Ook zoekmachines zijn tegenwoordig vaak voorzien van een kleine catalogusdienst: voorbeelden zijn hier HotBot en Ilse.

[Afbeelding]

Voor zover ik heb kunnen nagaan is er nog geen enkele kunstliefhebber die een overzicht heeft gemaakt van de plaatsen op Internet waar iets over Karel Appel te vinden is. Daarvoor bent u dus vooralsnog op de algemene zoekprogramma's ingewijd. Voor Appels collega Van Gogh is er bijvoorbeeld wel een mooie pagina met koppelingen: http://www.interlog.com/~vangogh/links.htm. Zo'n pagina is van onschatbare waarde voor degene die zich via Internet in een onderwerp wil verdiepen. Daarvoor moet de pagina natuurlijk zelf wel eerst gevonden worden. En daarvoor dienen dan weer de in dit artikel besproken technieken.