Onderwerpen
ID #1133

Hoe werkt een zoekmachine zoals Google?

De meest gebruikte zoekmachines, met Google aan kop, zijn een ‘crawler based’ zoekmachine, waardoor dit type zoekmachine verder wordt uitgediept.
Voor het gemak bedoel ik vanaf nu met ‘zoekmachine’ een zoekmachine gebaseerd op een crawler.
Een zoekmachine gebaseerd op een crawler bestaat uit:

  • Crawler (spider, robot)
  • Index (database)
  • Algoritme (formule)

 

De crawler

De crawler, ook wel ’spider’ of ‘(ro)bot’ genoemd, is een relatief eenvoudig computer programma dat niets anders doet dan links volgen en de HTML versie van de webpagina opslaan in een database, de index. De HTML versie van een webpagina is de pagina die je ziet met een web browser (zoals Internet Explorer).
Een crawler kan alleen de links volgen op webpagina’s die al in de index zijn opgenomen. Zonder een link naar een webpagina (of zonder het aanmelden van een webpagina bij een zoekmachine) kan een webpagina dus nooit gevonden worden!

Aanmelden bij zoekmachines

Bij een nieuwe of niet veel bezochte website of webpagina kan het weken duren voordat een zoekmachine de website vindt, omdat er geen of weinig links naar de betreffende website of webpagina zijn.
Daartoe is het mogelijk om je website aan te melden bij de zoekmachines. Omdat Google in Nederland veruit de meest gebruikte zoekmachine is, is het aanmelden bij Google aan te bevelen. Maar beter en sneller werkt het verkrijgen van links naar je website vanaf reeds geïndexeerde webpagina’s.
Het aanmelden bij bijvoorbeeld Google verzekert je niet dat de website ook hoog bij Google terecht komt. Dat bepaalt het algoritme van een zoekmachine, wat hieronder verder wordt uitgelegd.

De index

De crawler of spider slaat de gevonden HTML versie van een webpagina op in een gigantische database, de index. Op dat moment is een webpagina geïndexeerd. Primair wordt alleen de tekst op een webpagina opgeslagen in de index, maar de zoekmachines gaan steeds meer informatie opslaan.
Deze index is te vergelijken met de index achterin het boek. De index ‘weet’ welke woorden op welke pagina staan. Vervolgens is het aan het algoritme van de zoekmachine om te bepalen in welke volgorde de zoekresultaten worden gerangschikt.

Het algoritme

Het algoritme van een zoekmachine is een complexe wiskundige formule met de belangrijke taak om te bepalen welke webpagina’s uit de index getoond worden bij een zoekopdracht.
Het belangrijkste doel van een zoekmachine is om zo relevant mogelijke zoekresultaten te leveren op basis van een zoekopdracht. Deze zeer complexe taak schuilt in het algoritme van zoekmachines.

Hoe werkt het algoritme van zoekmachines?

Het algoritme van een zoekmachine is een wiskundige formule die honderden factoren hanteert voor het bepalen van de relevantie van een webpagina t.o.v. een zoekopdracht.
De specifieke werking van dergelijke algoritmes is geheim, omdat het succes van een zoekmachine afhangt van de relevantie van de zoekresultaten. Door veel testen en experimenteren zijn er enkele belangrijke factoren bekend, maar de precieze werking is onbekend.

Google PageRank

Het meest bekende stukje van een algoritme van een zoekmachine is de PageRank technologie van Google. De Google PageRank is populair en wordt vaak gezien als hèt algoritme van Google, maar het slechts één van de vele factoren die Google hanteert binnen het algoritme.
De Google PageRank technologie houdt ook rekening met de belangrijkheid van de webpagina die een ’stem’ uitbrengt. Een stem van een pagina die zelf belangrijk is, weegt zwaarder en helpt om de pagina waarvoor een stem is uitgebracht, belangrijker te maken.

Lees ook : bijkomende informatie van Google zelf

Bron: http://www.edwords.nl/kennisbank/handleidingen/hoe-werkt-een-zoekmachine

Labels: -

verwante artikelen: