En plus de l'indexation, les moteurs de recherche utilisent l'architecture du Web pour extraire les pages les plus intéressantes, celles que tout le monde finira par voir parce que les liens mènent à elles. On schématise la « Toile » par un graphe formé de sommets, « les sites », et de flèches, « les liens hypertextes » qui mènent d'un site à l'autre.
Le PageRank ou PR est l'algorithme d'analyse des liens concourant au système de classement des pages Web utilisé par le moteur de recherche Google. Il mesure quantitativement la popularité d'une page web. Le PageRank n'est qu'un indicateur parmi d'autres dans l'algorithme qui permet de classer les pages du Web dans les résultats de recherche de Google (voir en fin de document). Ce système a été inventé par Larry Page, cofondateur de Google
Sans plus d'informations, dans ce qui suit, on va imaginer que l'internaute se déplace au hasard et de manière uniforme (équiprobable). Si trois liens sont présents sur un site, l'internaute utilisera l'un de ces trois liens, avec une chance sur trois pour chacun par exemple.
|
Bilan des déplacements de l'élève :
Bilan des déplacements de tous les élèves de la classe :
Que constate-t-on ? Quel est le site le plus « attirant » ?
Indications : On pourra, par exemple, utiliser une liste Python et les instructions suivantes.
liste=[] # Déclaration d'une liste Python
liste.append(x) # Ajoute l'élément x à la fin de l liste1
liste.count(x) # Renvoie le nombre d'occurrences de x
|
Dans les deux configurations suivantes, modifier le programme précédent de manière à ce qu'il trouve le site le plus « attirant ».
Remarque : On peut aussi utiliser le simulateur de graphe Gephi ( https://gephi.org/ ). Il permet de calculer le PageRank de chaque page.
Plus généralement : Selon le brevet Google, les critères de classement des pages sont :