Moteurs de recherche : le règne des Cyclopes à œillères

« Tout le monde a le droit de parler, mais reste à savoir qui sera entendu »

Comme pour une rédaction lors d’un examen de philo, c’est de cette phrase d’Aaron Swartz qu’est partie ma réflexion sur les libertés des internautes en particulier la liberté d’expression et d’accès à l’information. Je me dois d’abord de vous présenter l’auteur de cette réplique : Aaron Hillel Swartz (né le 8 novembre 1986 à Chicago, mort le 11 janvier 2013 à New York) est un informaticien américain, écrivain, meneur politique et militant de l’Internet. Il s’est impliqué dans le développement du format de flux Web RSS, l’organisation Creative Commons, le cadriciel de site Web webpy.org et le site d’actualités Reddit. Les travaux de Swartz ont également porté sur la sociologie, l’éducation civique et l’activisme (merci, Wikipedia). Je ne saurais par ailleurs que trop vous conseiller le documentaire qui lui a été consacré The Internet’s Own Boy.

Mais revenons-en à nos moutons. Beaucoup d’hypocrisie règne dans nos sociétés concernant les libertés sur Internet. Combien sont-ils à s’offusquer et crier au scandale quand un État (totalitaire) bloque l’accès à certains sites, blogs ou réseaux sociaux  ? Le mois dernier encore, la justice turque menaçait d’interdire totalement l’accès à Facebook depuis la Turquie si la compagnie ne bloquait pas un certain nombre de pages relayant des contenus considérés comme offensants. Ô décisions liberticides. Certes nous n’avons pas Erdogan, mais nous avons quelque chose de bien plus insidieux et peut-être plus « efficace » dans la normalisation de la pensée. J’ai nommé Google. Le but n’est pas ici de faire le procès du mastodonte des moteurs de recherche, mais plutôt de remettre en cause la fâcheuse tendance de la majorité1 (moi y compris) à l’utiliser les yeux fermés, mû par une foi inébranlable en son omniscience et s’imaginant que son seul but est de nous mener vers les voies de la connaissance.

 

L’arbre qui cache la forêt

Ce que nous, navigateurs lambda, connaissons du Web, n’est en fait qu’une toute petite partie de celui-ci. La pointe de l’iceberg pour reprendre une métaphore très utilisée pour expliquer les notions de Web surfacique et Web profond (à cela s’ajoute encore, entre autres, le dark Web mais faute de scaphandre et de temps, nous ne descendrons pas si bas dans les Abysses de l’Internet). Ce Web profond est constitué de toutes les pages potentiellement indexables par les moteurs de recherche mais qui ne le sont pas bien souvent pour des raisons techniques (manque de liens retours, erreurs dans le code HTML, besoin d’un identifiant, langage ignoré des moteurs de recherche, etc.) Cette partie non indexée du Web serait, selon une étude de juillet 2001 réalisée par l’entreprise BrightPlanet, 500 fois plus vaste que ce à quoi les moteurs de recherche nous donnent accès. Son contenu n’est d’ailleurs pas fait que de choses viles et douteuses, on y trouve des milliers de ressources de grande valeur validées par des experts faisant autorité dans leurs domaines respectifs. Enfin bref, pour l’omniscience de Google et ses concurrents il faudra donc repasser. Si sur ces contraintes techniques je ne demanderai pas à Google de faire son mea culpa, je m’interroge par contre, sur sa manière de classer les « quelques » sites qui restent, car dans ce Web visible il existe bien des niveaux de visibilité. Surtout quand on sait que la population qui dépasse la 3e page de résultats est assez restreinte.

Le colibri et le pigeon2

Au commencement était l’algorithme — cette formule mathématique qui trie toutes les données stockées dans l’index du moteur de recherche en fonction de votre requête — suivi du sacrosaint PageRank3. Lorsqu’un document est pointé par de nombreux hyperliens, son PageRank augmente. Plus le PageRank est élevé, plus il aura de chances d’être affiché dans les premiers résultats d’une recherche. Ce système donne une indication de la « popularité » du document parmi les autres documents du Web. Bien que cette notion de popularité soit discutable, le PageRank a néanmoins donné lieu à un immense concours de zizi 2.0 pour se retrouver dans le haut du classement. Sans compter que ce sont les premiers résultats qui seront le plus consultés et donc potentiellement les plus recités, ce qui ne fera que conforter leur position. L’un des gros problèmes de ce système, c’est que pour se faire une place au soleil, les créateurs de contenus sont prêts à ce que leurs sites deviennent conformes aux règles des engins de recherche et non plus dirigés (en priorité) vers les utilisateurs. Google met très régulièrement son algorithme à jour pour le rendre plus performant, si bien qu’il se voit aujourd’hui comme un moteur de réponses, prétendant anticiper les désirs de ses utilisateurs. Peut-être, mais quand je recherche une information et que j’ai besoin de faits, si tout ce que j’ai est une réponse qui « correspond » à mon système de pensée et me conforte dans ce que je sais déjà, je n’aurais pas pris la peine d’allumer mon ordinateur. Je ne parle pas trouver l’heure d’ouverture de la piscine communale ou une recette simple et rapide de falafels, mais de ces choses de la sphère scientifique, d’opinion ou intellectuelle (appelez ça comme vous voudrez) un peu laissées de côté. Et puis, vu le nombre de publicités pour des bottes fourrées dont je suis bombardée, ça fait un bon moment que je me suis dit que les mecs de l’autre côté de l’écran n’avaient pas compris grand- chose à la teneur de mes envies.

Le fric c’est clic

Parlons un peu business. J’évoquais quelques lignes plus haut les contingences techniques qui empêchent certains sites d’être indexés. S’il y a des sites hors normes, il doit bien y avoir quelqu’un qui fixe la norme. C’est précisément ce que fait le World Wide Web Consortium (ou W3C). Parmi les 396 membres de ce club un peu sélect : Apple, BlackBerry, eBay, Facebook, Microsoft et bien entendu Google. « Il faut bien comprendre que les grands financeurs du W3C ont pour principal objectif de rentabiliser leurs investissements et de rapporter le maximum de dividendes à leurs actionnaires, et non pas de développer l’intelligence collective de l’humanité. Si leurs objectifs passent par une augmentation de l’intelligence collective, tant mieux, ils ne sont pas contre a priori, bien sûr, sinon, tant pis ! » explique Pierre Lévy4 Le résultat : une orientation de la recherche très axée sur ce qu’on appelle le Click stream marketing, et donc le revenu par clic. En effet, les moteurs de recherches d’entreprises privées ont surtout intérêt à répertorier des liens très fréquentés, car à fort potentiel de revenus publicitaires. La petite devise du W3C « Leading the Web to its full potential » prend donc un sens bien moins philanthropique si son auteur avait des dollars dans les yeux en pensant à ce potentiel. Mais le plus inquiétant à mon sens est la première partie, « leading the web » à la fois traduisible par « mener le Web » ou « diriger le Web ». Le monopole financièrement intéressé, quand il concerne l’accès à l’intelligence collective, ne saurait être une bonne chose.

Dans le même état d’esprit, j’aurais  voulu vous parler de l’illogisme contondant qu’il y a à faire payer des articles scientifiques issus de recherches financées par l’argent public (un autre combat d’Aaron Swartz). Mais l’espace qui m’est imparti me permettra seulement de conclure par cette phrase en réponse à celle qui a précédé ce pseudo pamphlet de noob semi-conscientisée et informée : tout le monde a le droit de chercher, mais peu décident de ce que l’on trouve.

Maureen Vanden Berghe

1. [En Belgique en janvier 2015 95,34 % des utilisateurs de moteurs de recherche utilisaient Google — source StatCounter]
2. [Colibri et Pigeon sont des paramètres supplémentaires de l’algorithme de Google. Le premier serait capable de déduire le
contexte de votre recherche pour améliorer les résultats. Le second lui améliore les résultats en lien avec des localisations. À
cette animalerie nous pouvons également ajouter le Pinguin et le Panda qui sont eux des filtres de pénalité ajoutés à
l’algorithme de classement des résultats de Google pour punir des sites de « mauvaise qualité ».]

3. [L’algorithme tient également compte des termes figurants sur le site Web, le niveau d’actualisation du contenu, votre
région…]

4. [Pierre Lévy est à la fois philosophe et directeur de recherche, au Canada, d’un projet de « métalangage » permettant aux
internautes de « coder le sens » et pas simplement les données. Cette citation provient d’une interview qu’il a donnée à
Multitudes pour l’article « Au-delà de Google. Les voies de l’intelligence collective ».]