Google (moteur de recherche)

moteur de recherche internet

Google /ˈgu.gəl/[2] est un moteur de recherche gratuit et libre d'accès sur le World Wide Web, ayant donné son nom à la société Google. C'est aujourd'hui le moteur de recherche et le site web le plus visité au monde[3] : 90 % des internautes l'utilisaient en 2018.

Google
Logo de Google

Adresse www.google.com
Slogan Do the right thing (« Faites la bonne chose »)
Commercial  Oui
Écrit en Python, C, C++
Publicité  Oui
Type de site Moteur de recherche
Langue Multilingue
Inscription Gratuite et optionnelle
Siège social Mountain View, Californie
Drapeau des États-Unis États-Unis
Propriétaire Google Inc.
Créé par Larry Page, Sergey Brin
Lancement [1]
Revenus 16 000 000 000 $
État actuel  Actif

Origine du nom

modifier

Le nom Google vient du mot Gogol[réf. nécessaire], nom donné au nombre  . Ce nombre a été choisi pour évoquer la capacité de Google à traiter une très grande quantité de données.

Principes et caractéristiques

modifier

Système de classement PageRank

modifier

L’ordre des résultats affichés par le moteur de recherche Google est basé en partie sur un algorithme concourant au système de classement des pages web, le PageRank : lorsqu'un document est pointé par de nombreux hyperliens (popularité de liens), son PageRank augmente. Plus son PageRank est élevé, plus il aura de chance d'être affiché dans les premiers résultats d'une recherche. Ce système donne une indication de la « popularité » du document parmi les autres documents du web.

Ce système a fait le succès de Google, car il a permis des résultats plus pertinents que les autres moteurs de recherche qui se contentaient de comptabiliser les mots-clés insérés dans les pages des sites. Il a également permis ce que l'on appelle le bombardement Google.

Pour qu'un site gagne en visibilité, il faut que le site soit compétent dans 2 domaines principaux :

  • évaluation du domaine internet (DR) est un nombre sur une échelle de 0 à 100 basé sur le profil de backlink (et le potentiel de classement) pour un site donné. Les sites tels que Google et Facebook obtiennent 99/100. Les tout nouveaux blogs sont à 0 ;
  • évaluation de l’URL (UR) est la même idée que DR, sauf qu’il évalue l’article de blog individuel (URL), et non le domaine entier[4].

Sobriété et valorisation des mots

modifier

Ce moteur de recherche est aussi apprécié pour sa rapidité de recherche et sa sobriété : il ne contient ni de Flash, ni de bandeau publicitaire clignotant. Son interface a inspiré celle d'autres moteurs, comme Yahoo!.

Cette sobriété, loin d'être anecdotique, est au moins en partie à l'origine du succès du site. À l'époque de son lancement en effet, la mode était aux moteurs de recherche insérés sur des pages très chargées en contenu et en publicité. Ces pages étaient souvent longues à s'afficher et difficiles à lire.

Google utilise un système d'AdWords (« publicité de mots ») comme une de ses sources de revenus. Ce système est fondé sur une valeur par mot selon sa demande. Plus le mot sera demandé, plus il sera payé cher par clic. Mais il est toujours possible pour l'utilisateur de bloquer l'affichage de ces publicités grâce à des plugins, le plus populaire étant Adblock Plus avec qui Google a passé un accord financier pour qu'il ne filtre plus ses publicités.

Selon Optify, 94 % des clics vont aux dix premiers résultats et Google génère à lui seul 36,4 % des clics[5].

Infrastructure

modifier

Vers 2002, Google affirmait distribuer la charge sur plus de 10 000 PC fonctionnant avec un noyau Linux modifié. Le chiffre de 1 000 requêtes simultanées en pointe a aussi été souvent évoqué. Les chiffres réels semblent 10 fois plus élevés. Ils sont cependant secrets, notamment pour ne pas permettre de calculer facilement l'investissement nécessaire pour concurrencer Google[6].

Google utilise des robots nommés Googlebot qui visitent à intervalle régulier l'ensemble des sites web n'ayant pas explicitement demandé à ne pas être référencés afin de maintenir à jour la base de données qui fournit les réponses aux requêtes des internautes.

Hormis le logo officiel[7], le site adopte des logos particuliers pour certaines fêtes et évènements : les Google Doodles. Réalisés par Dennis Hwang, un designer américain d'origine coréenne de 23 ans, ils apparaissent régulièrement dès qu'une fête locale ou internationale (nouvelle année, fêtes nationales, etc.) ou un évènement marquant (Jeux Olympiques, commémoration d'une personne illustre, Coupe du Monde, etc.) le permet.

Tous les logos de fêtes et d'évènements de www.google.com mis en ligne depuis 1999 sont disponibles en ligne.

Le , Google décide de changer son logo qui a été critiqué[Qui ?] plusieurs fois d'être non convenable à une grande et importante société telle que Google Inc.

Version bêta

modifier

Une version bêta est habituellement une mention signifiant qu'un programme est en phase de finition.

L'intérêt qui réside dans l'appellation « version bêta » est que, du point de vue de la qualité du service, elle n'engage à aucune obligation de résultat, étant donné que c'est une phase de développement. Cela peut également signifier que les services Google sont en perpétuelle phase d'amélioration.

Cette particularité propre à Google devient une mode qui se traduit chez ses concurrents par un usage plus ostensible de cette mention.

Services

modifier
 
Capture d'écran de la page d'accueil du moteur de recherche Google.

En 2010, ce moteur de recherche est disponible dans 35 pays[8] et propose son interface en plus de 100 langues.

Google est à l'origine un moteur de recherche de pages web, qui s'est étendu progressivement à divers types de documents (PDF, Word, Flash…), aux images (Google Images), aux vidéos (Google Vidéos), ainsi qu'aux forums Usenet (Google Groupes) depuis le rachat de Deja News.

Il possède un portail d'actualités (Google Actualités) regroupant les sites des journaux à grand tirage et des plus grandes agences de presse.

Il possédait une section répertoire qui permet de trouver des sites par catégorie (répertoire dmoz classé par PageRank), qui a disparu.

En , l'entreprise lance Google Instant. Ce service est disponible au début dans un nombre restreint de pays (dont la France). Dès la première lettre tapée dans la barre de saisie, Google envoie un résultat qui s'affine au fur et à mesure de la saisie. Cette fonction propose des résultats qui sont susceptibles de convenir car habituellement recherchés. Le moteur de recherche anticipe donc les requêtes des internautes. Cette fonctionnalité est désactivable. Les ingénieurs de l'entreprise annoncent qu'elle permettrait de faire gagner du temps de l'ordre de 40 %.

Le , un petit triangle bleu de sélection à gauche du premier résultat proposé par la version américaine du moteur de recherche est apparu. Il est possible de sélectionner le résultat de son choix par les touches et du clavier, et d'appuyer sur la touche Entrée pour accéder au site.

le , la prévisualisation des pages web est disponible (en cliquant sur la loupe, une image du site voulu apparaît à la droite de l'écran) et le pointage du curseur sur un résultat colorise le fond de celui-ci en bleu.

Utilisation

modifier

Google propose un formulaire simple et un formulaire de recherche avancée permettant d'exclure des mots ou de rechercher des expressions complètes[9]

Termes à chercher

modifier

La documentation de Google sur son interprétation des requêtes est assez spartiate. L’évolution du fonctionnement observé montre que ceci est sans doute à dessein pour garder une liberté de changement maximale. Ce qui suit doit être continuellement validé et remanié pour suivre les modifications.

  • H2O est cherché comme un seul mot et Google ne trouve alors pas les documents avec H 2 O ou H2O dans leur texte. Ceux-ci sont retrouvés en demandant "H 2 O". H-2-O (voir plus loin le rôle du tiret) trouve aussi bien H2O que H 2 O et H2O. Malheureusement, l’opérateur « tiret » ne cherche que les deux combinaisons extrêmes (tous les mots collés ou tous les mots séparés : il ne trouve pas H2 O).
  • mot : un mot et ses variantes singulier/pluriel - masculin/féminin – avec/sans accents. Par exemple, chevaux d’arçon retrouve cheval d’arçon. La variante que vous spécifiez est favorisée dans le tri des documents présentés.
  • "mot" : un mot exact. Google ne tient pas compte de l’accentuation pour la recherche mais favorise la forme spécifiée lors du tri des documents présentés.
  • ~mot : un mot et ses synonymes. Fonctionne avec un dictionnaire anglais même sur les recherches en français et néerlandais ! Essayer la requête ~automobile -automobile pour voir les mots trouvés en dehors du terme strict automobile. ~arabic retourne Egypt, Lebanon, Arab et… Hindu ! On ne connaît pas la source des synonymes.
  • "-mot" : exclure un mot; exclut les résultats qui incluent ce terme (utile pour les synonymes, par exemple "jaguar -voiture"). Il est possible aussi d'exclure un site (par ex. "télévision -site:www.tf1.fr")[10]
  • "mot… mot" : une suite de mots spécifiques, une expression.
  • "mot * mot" : dans une suite de mots entre guillemets (et seulement là), une étoile peut être mise à la place d’un ou plusieurs mots complets qu’on ne désire pas spécifier. Par exemple : « ministère du * et du commerce ».
  • site:www… : un domaine d’origine. On demande à google de fouiller le contenu du site en question. On peut être plus ou moins général et même indiquer des domaines de premier niveau. Par exemple : site:org OR site:com.
  • intitle : « mot… mot » : une suite de mots spécifiquement dans le titre du document (balise <title>…</title> et/ou première balise <h1>…</h1>). Le mot clé doit apparaître dans le titre de la page et les suivants dans le texte.
  • allintitle : tous les mots doivent apparaitre dans le titre de la page.
  • inurl : mot: fait ressortir le mot-clé s'il est employé dans l'url de la page[11].
  • allinurl : mot mot : tous les mots doivent apparaître dans l'url de la page.
  • "mot" : chercher ce mot ou cette phrase en tenant compte de sa graphie : les accents et autres caractères diacritiques sont préservés ("tél" par exemple pour éviter de trouver des pages avec "tel"), le féminin/masculin et le singulier/pluriel ("retraitées" ne trouvera pas de pages ne contenant que "retraite", "retraitées" ou "retraités", par exemple). "mot" permet également d'imposer la présence de mot dans les résultats même s'il est habituellement ignoré par Google dans la langue de l’utilisateur ("de" en français, par exemple).
  • mot-mot : chercher un terme composé de plusieurs mots, qu’il soit écrit avec des tirets, des espaces ou même sans espace du tout : gratte-ciel trouve gratte ciel, gratte-ciel et gratteciel. gratte-ciel ne signifie pas du tout la même chose que gratte-ciel (voir l’opérateur "-"). Attention : va-nu-pied trouve va nu pied et vanupied mais pas vas nupied.
  • define:mot : donne des définitions du mot trouvées sur internet.
  • mot AROUND(x) mot : permet d’effectuer une recherche en intégrant une notion de proximité entre deux mots. Plus "x" est grand, plus la proximité entre les mots est large.

Opérateurs logiques (booléens)

modifier
  • espace : les documents doivent contenir ce qui est à droite ET ce qui est à gauche. Le tri de Google favorise les documents où les différents mots spécifiés sont proches l’un de l’autre (voir plus bas).
  • OR ou | : les documents peuvent contenir ce qui est à droite OU ce qui est à gauche OU les deux. Attention : OR doit être écrit en majuscules !
  • espace- (signe moins) : exclure les documents contenant le mot qui suit (SAUF)
  • (…) : sous-expression à évaluer avant de faire les opérations avoisinantes
  • # : permet d'afficher les résultats les plus populaires du moment concernant votre recherche quand le hashtag est placé devant celle-ci[12]
  • @ : permet d'afficher les résultats relatifs aux réseaux sociaux en prenant en compte l'arobase comme social tag

Limites

modifier
  • Les requêtes sont limitées à 32 mots.
  • Seuls les 1 000 premiers résultats pertinents pour une requête sont accessibles, et ce même si les correspondances sont plus nombreuses. Les résultats peuvent même parfois être moins de 1 000 en raison de la suppression des pages provenant d’un même site. D’après Google, obtenir plus de 1 000 résultats entraînerait une lourde charge supplémentaire pour une demande finalement assez rare.

En théorie, le tri assure que les références les plus utiles sont en premier (difficile à valider).

  • Lors d’une recherche par dates, la date est celle de l’indexation dans la banque de données (c.-à-d. la visite du « spider » Google) et non celle de la publication effective de la page (telle que fournie par le serveur http://)
  • Dans le formulaire de recherche avancée, vous pouvez faire une recherche sur les derniers 3, 6 et 12 mois.
  • L’opérateur daterange: date julienne-date julienne permet de spécifier un autre intervalle de dates. Une date julienne est une date dans le calendrier julien.

Tri du résultat

modifier

La qualité de Google vient de sa capacité à montrer en premier les pages jugées les plus pertinentes en général et les plus pertinentes à une recherche en particulier. Google trie les documents trouvés en fonction :

  • de mesures de qualité du site en général et aussi de chacune des pages (cohérence des méta-informations avec le texte visible de la page par exemple). Ces mesures ne sont pas ou peu documentées.
  • une mesure du poids de chacune des pages indexées : Il s’agit de l’algorithme PageRank dont voici un extrait cité de Google :

We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: PR(A) = (1-d) + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn)) Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages’ PageRanks will be one. PageRank or PR(A) can be calculated using a simple iterative algorithm, and corresponds to the principal eigenvector of the normalized link matrix of the web.

  • d’un calcul de la pertinence de la page vis-à-vis de la recherche effectuée. Ceci se fait en tenant compte :
    • de la présence dans la page des mots de la recherche (éventuellement élargis à leurs synonymes ou à leurs variantes singulier/pluriel)
    • de l’emplacement de ces mots dans la page (titre, méta-données, texte) ou dans les liens vers cette page : ce dernier point cause parfois des problèmes éthiques car une page se retrouve indexée par les mots que d’autres personnes que ses auteurs utilisent pour la désigner.
    • Du tf-idf de chaque mot, formule qui prend en compte le nombre d’occurrences du mot dans la page pondéré par l’inverse de la fréquence relative de ce mot dans la partie du web indexée par Google:
    • de la distance dans la page entre les mots cherchés : plus ils sont proches l’un de l’autre, plus la page est jugée pertinente vis-à-vis de la recherche effectuée[13].
  • du pays indiqué par l’URL d’accès à Google : google.be accorde une nette préférence aux sites belges, google.fr aux sites français, google.com aux sites américains et google.co.uk aux sites anglais, etc. Il est réellement important de choisir la « localisation » de ses recherches.
  • de la langue de l’utilisateur qui est aussi celle des mots cherchés.

Il est essentiel de faire ses recherches en changeant sa langue d’utilisateur en fonction de la langue des mots cherchés. Google trie alors les documents en favorisant cette langue (et utilisera peut-être un jour le bon dictionnaire de synonymes). Il utilise alors l’algorithme adéquat pour rendre équivalents le singulier et le pluriel, le féminin et le masculin (rappel : le néerlandais semble mal supporté pour l’instant).

Les résultats proposés par une recherche sur Google sont ajustés à l'environnement culturel de l'utilisateur. Ainsi, une recherche sur « Dieu » depuis l'Europe donnera comme représentation un vieil homme blanc et barbu, depuis le Moyen-Orient plutôt des calligraphies du mot « Allah », et depuis le Cambodge ou la Mongolie des images du Bouddha[14].

Paramètres dans l'URL

modifier

Le résultat d'une recherche est renvoyée dans certains cas (par exemple une recherche sur Google Books) sous la forme d'une URL avec des paramètres, par exemple http://www.google.com/?gws_rd=cr&ei=xgH….

  • paramètre cr=country reffered
  • paramètre rd=redirected
  • paramètre gws=google web server
  • paramètre ei=time stamp[15]
  • paramètre ved=identifiant permettant de tracer l'origine du lien[16]
  • paramètre hl= langue de l'interface, comme dans la plupart des services de Google[17]
  • paramètre pws=1 ou 0, pour "personalized web search", indique si la personnalisation des résultats est activée ou pas[17]

Fonctions complémentaires

modifier

Google propose également des fonctions complémentaires[18] :

  • à la une de l’actualité : certains mots clés liées à l'actualité renvoient en tête des résultats 3 titres d'articles de Google Actualités. Un bouton permet de rechercher dans la une de l’actualité ;
  • extraits d'images (provenant de Google Images) ayant rapport avec les mots-clé tapés ;
  • extraits de vidéos (provenant de Google Vidéos) ayant rapport avec les mots-clé tapés ;
  • extraits de cartes (provenant de Google Maps) si on tape un lieu géographique ;
  • extraits d'articles Wikipédia sur certains sujets (exemple : pomme) ;
  • conversion de devises : ex. : dans le champ recherche, taper : 3 euros en dollars, Google affichera : 3 euros = .,..... dollars américain (taux fournis par Citybank non garantis) ;
  • calculatrice Google : dans le champ recherche, taper une formule mathématique ;
  • traduction automatique par Google Traduction[8] ;
  • documents (Page web (.html,.htm et autres extensions de fichiers), Page web pour mobiles (.wml,.wap), Fichier texte (.txt,.text et autres extensions de fichiers), XML (.xml), PDF (.pdf), PostScript (.ps), Documents Office (Word :.doc,.docx), Excel (.xls,.xlsx), PowerPoint (.ppt,.pptx)) et OpenOffice (Texte :.odt, Feuille de calcul :.ods, Présentation :.odt), code source dans les langages de programmation courants (BASIC (.bas), C/C++ (.c,.cc,.cpp,.cxx,.h,.hpp).

C# (.cs), Java (.java), Perl (.pl), Python (.py)), Rich Text Format (.rtf), TeX/LaTeX (.tex), Flash (.swf), Scalable Vector Graphics (.svg), Google Earth (.kml,.kmz), Autodesk Design Web Format (.dwf), GPS eXchange Format (.gpx), Hancom Hanword (.hwp)[19]. On peut filtrer par type de document : Syntaxe : « filetype:type souhaité ».

  • Pages similaires (l'opérateur related: permet de rechercher uniquement les pages similaires)[20]
  • Opérateurs de ciblage : permet de faire sa recherche exclusivement sur une seule adresse web. Syntaxe : « site:votre requête ».
  • J'ai de la chance : permet de visiter directement le premier site trouvé sans voir tous les autres résultats.
  • Définitions : permet d'obtenir une ou plusieurs (ou aucune) définition(s) de mots, extraites de divers sites web (Wikipédia et Wiktionnaire principalement, ainsi que d'autres sites). Cette fonction est désormais disponible en anglais, français, espagnol, allemand, chinois, italien et russe. Syntaxe : « define:mot à définir »
  • Possibilité de télécharger son historique de recherche depuis un compte. Le fichier ZIP sera alors stocké sur Google Drive et l'utilisateur pourra le télécharger via un lien envoyé sur Gmail[21].
  • Messages de Google+, sur certains sujets, avant que le service ne ferme en 2018.

Fonctions complémentaires ayant disparu

modifier
  • Pages liées : dans le champ recherche taper link:site.com pour afficher les pages extérieures qui pointent vers l'URL spécifiée
  • Pages en cache : permet d'afficher la page stockée dans la base de Google, utile si la page n'existe plus (fonctionnalité ayant disparu)
  • Google Movies : Taper film:titre pour afficher des critiques du film dont on a tapé le titre (movies:titre pour des critiques en anglais). Sur Google Movies, on a le choix entre la recherche web et la recherche des films qui indique les critiques du film recherché[22]. Cette fonction permet de donner des horaires des séances de cinéma proche de l'utilisateur (par utilisation de l'adresse IP) si l'on tape un nom de film

Easter eggs

modifier

Fonctions amusantes (Easter eggs)

  • Si vous tapez « answer to life the universe and everything », la fonction calculatrice de Google retourne « 42 », en référence à l'œuvre de Douglas Adams, Le Guide du voyageur galactique. cf. La Grande Question sur la vie, l'univers et le reste.
  • Si vous tapez « do a barrel roll » la page s'anime en faisant un 360°, en hommage à Nintendo et surtout à la licence Star Fox[23][source insuffisante].
  • La recherche « let it snow » (en seulement) envoyait des résultats de recherche, mais qui disparaissait rapidement derrière une chute de neige qui envahissait l'écran de l'utilisateur.
  • Lorsqu'on tape « binary », en regardant le nombre de résultats de la recherche, on voit que le résultat est écrit en chiffres binaires (phénomène similaire avec hex / hexadecimal et octal).
  • Si vous tapez « tilt », la page de résultats est affichée inclinée[réf. nécessaire].
  • La recherche « zerg rush » lance un mini-jeu où les "o" du mot Google attaquent en masse les résultats de la recherche. Il s'agit d'une référence à une stratégie utilisée dans le jeu StarCraft, qui consiste, en jouant la race "Zerg", à noyer l'adversaire sous un flot d'unités ennemies. Quand tous les résultats sont détruits, les "o" s'organisent en 2 "G" majuscules géants, un rouge et un orangé, pouvant à la fois signifier Google et reprendre l'expression "GG", acronyme de "Good Game", souvent utilisé pour complimenter ses équipiers ou ses adversaires à la fin d'une partie d'un jeu en ligne.
  • Si l'utilisateur tape "atari breakout" dans Google image, une démo jouable du jeu apparait. Les briques du jeu original sont remplacées par les images de la recherche. Si toutes les "briques" sont détruites, le jeu continue avec des images issues d'une nouvelle recherche aléatoire.
  • Si vous tapez « Bletchley Park », Google affiche le nom de ce lieu dans le bloc du Knowledge Graph d'abord sous forme chiffrée, puis les caractères défilent pour simuler son déchiffrage.
  • Si vous tapez « Thanos " », Google affiche le gant de Thanos et si on appuie dessus, les sites proposés pour cette recherche commencent à disparaître.

SearchWiki

modifier

À partir du , la fonctionnalité « SearchWiki » permet de personnaliser la page de résultats Google sur sa version anglaise. La nouveauté a fait son apparition sur la version française de Google le [24]. Cette fonctionnalité n'est plus disponible.

Caractères spéciaux

modifier

Google gère les accents écrits sous forme d'entités, mais pas les caractères Unicode. Par conséquent, rechercher « alcene » et « alcène » ne donne pas le même résultat (car un mot seul est cherché en donnant une préférence à la forme dans laquelle il a été écrit) tandis que rechercher « encyclopédie » ou « ENCYCLOPÉDIE » ne change rien.

Si vous tapez « recette de la soupe au * et à la tomate », Google vous proposera le basilic ou le potiron à la place de l'étoile. On peut élargir ses recherches aux synonymes d'un mot, en le précédant du symbole « ~ ». Le « + » permet de forcer le mot à être interprété tel quel par Google (ceci est notamment utile pour les accents en français), ceci n'est plus valable depuis la mise sur le marché de Google+.

Utilisations détournées et mèmes

modifier

Les nombreuses fonctionnalités de Google ont donné naissance à différentes utilisations ludiques par les internautes.

Bulle de filtres

modifier

En 2011, les résultats de la requête Google Search se sont révélé être adaptés aux utilisateurs de l'activiste Internet Eli Pariser, en isolant efficacement les utilisateurs dans ce qu'il a défini comme une bulle de filtres. Pariser détient des algorithmes utilisés dans les moteurs de recherche tels que Google Search responsable de la restauration «un écosystème personnel d'information». Bien que les points de vue contrastés aient atténué la menace potentielle d'une «dystopie informationnelle» et ont remis en question la nature scientifique des revendications de Pariser, des bulles de filtre ont été mentionnées pour expliquer les résultats surprenants de l'élection présidentielle américaine en 2016 aux côtés de fausses nouvelles et Echo chambres, suggérant que Facebook et Google ont conçu des réalités en ligne personnalisées dans lesquelles «nous ne voyons et n'entendons ce que nous aimons»[25].

Concours de positionnement

modifier

De nombreux concours de positionnement ont vu le jour sur Google, puis sur d'autres moteurs. Le but est de placer une page sur un mot-clé plus ou moins fictif en première position des résultats de recherche sur celui-ci. Le premier concours important concernait la requête SERPS. En 2004, un concours francophone sur l'expression mangeur de cigogne a rassemblé 170 candidats et atteint 420 000 requêtes sur Google pour cette expression. Des controverses ont eu lieu sur les motivations de ces concours, qui sont pour les uns des outils d'expérience utiles au référencement, mais qui n'ont selon les autres que des motivations uniquement ludiques, faisant de Google un simple terrain de jeu.

Bombardement Google

modifier

Le bombardement Google (Google bombing) consiste à associer sur le plus de pages web possible une expression à un site web donné, de sorte qu'une recherche Google sur cette expression remonte le site en question dans les premiers résultats. Ces campagnes se font à travers les forums ou les blogs, en incitant les internautes à participer. Il suffit au participant d'ajouter sur un site web ou un blog un lien vers le site visé en l'associant à l'expression.

L'un des premiers sites à avoir été visé par un bombardement est celui de la biographie du président des États-Unis George W. Bush sur le site de la Maison-Blanche. Une recherche google sur l'expression « failure » ou « miserable failure » donnait encore ce site comme premier résultat, jusqu'à ce que la firme apporte quelques corrections à son système, lesquelles réduiraient sensiblement le nombre de bombardements Google (voir plus bas).

Au cours de l'automne 2005, et faisant suite à une campagne massive de courriels lancée par le parti politique de Nicolas Sarkozy, et en représailles, des webmestres ont appelé à faire du bombardement Google sur le nom du ministre de l'Intérieur. Ainsi, quand vous tapiez Nicolas Sarkozy dans Google, vous obteniez en deuxième position un lien pointant vers Iznogoud, le personnage de bande dessinée qui veut être calife à la place du calife.

Fin janvier 2007, Google annonce avoir mis au point un algorithme permettant de résoudre le problème du « google bombing » et ce dans de nombreuses langues[26].

Google Fight

modifier

Le Google Fight consiste à comparer le nombre de résultats renvoyé par Google sur plusieurs expressions : est déclarée vainqueur l'expression ayant obtenu le plus de résultat. Les internautes s'amusent ainsi à comparer des noms, des idées politiques, etc. Un site web a même été créé pour offrir une interface à ce type de « combat »[27]. Le mot renvoyant le plus de résultats sur google étant « com » avec environ 25,27 milliards de résultats.

Depuis , l'équipe de Google intercepte les requêtes de Google Fight et renvoie des résultats fantaisistes. Vous pouvez le vérifier en interrogeant le site plusieurs fois de suite sur le même couple de noms.

Google Whacks

modifier

Le Google Whacks est un jeu qui consiste à trouver deux mots qui associés dans une recherche sur Google donnent un unique résultat. Les termes employés doivent exister dans le dictionnaire, et le site trouvé ne doit pas être une simple liste de mots. Les guillemets et tous signes de ponctuation ne doivent pas être utilisés. Le score est souvent calculé en multipliant le nombre de résultats du premier terme par le nombre de résultats du second mot.

« Faux Google »

modifier

Certains sites imitent la page d'accueil de google, dans un but humoristique[28]

Dans un autre style, certains sites utilisent les résultats du moteur de recherche Google, mais en les mettant en scène d'une façon particulière. Par exemple afin d'économiser l'électricité des écrans cathodiques[29] sur la page d'accueil de nombreux utilisateurs, un écran noir est proposé[30]. Afin de montrer à un internaute, sur un forum par exemple, qu'il peut trouver seul la réponse à sa question en faisant une recherche Google, on le renvoie vers les sites googleesttonami en français ou lmgtfy (pour Let Me Google That For You en anglais) qui accompagnent la recherche d'une petite animation.

Jumeaux Google

modifier

Google a généré la notion de Google twins (littéralement « jumeaux Google ») qui renvoie à des personnes homonymes (portant les mêmes prénom et nom de famille) et qui de ce fait peuvent apparaître au sein d'une même page de résultats lors d'une recherche effectuée au sujet de ce nom sur Google (ou tout autre moteur de recherche)[31],[32]. Ceci peut créer du bruit pour trouver des informations sur une personne, si l'un de ces « jumeaux Google » jouit d'une notoriété plus élevée.

Google hacking

modifier

Le Google hacking est une technique consistant à utiliser un moteur de recherche, généralement Google, en vue de chercher des vulnérabilités ou de récupérer des données sensibles.

Limites et erreurs de Google

modifier

Des études montrent des limites internes de Google, comme de fortes variations dans le nombre de résultats annoncés à des recherches identiques lors de certaines périodes[33], ou des résultats incohérents quand on compare les résultats de certaines recherches, dues à des limitations techniques[34],[35],[36].

Taille de la base

modifier

En 2013, Google indexerait 30 000 milliards d'URL[37].

Plusieurs recherches ont montré que le nombre de pages réellement indexées ne serait que la moitié du nombre annoncé ; l’autre moitié serait des pages visitées par le robot de Google, mais dont seule une partie (l’en-tête, sans le corps de la page) serait indexée.

Cette notion de taille de l'index a été et reste un élément marketing majeur des moteurs de recherche. Fin 2005, à la suite d'une analyse critique[35], démarrée en janvier 2005, de la taille de son index, initiée par Jean Véronis, la firme Google a décidé de ne plus mettre cet argument en avant.[réf. nécessaire]

À titre d'exemple sur cette approche marketing, Google avait annoncé un doublement de la taille de son index annoncé, le lendemain du lancement de MSN Search[réf. nécessaire].

Efficacité des recherches

modifier

Lors d’une recherche d’une complexité moyenne (utilisation d’un opérateur booléen, c'est-à-dire d’un espace [opérateur ET]), les résultats varient du simple au triple dans la même journée ; dans certains cas, selon un ordre de grandeur allant de un à dix.

Quelquefois, le moteur de recherche ne tient pas compte des opérateurs demandés.

Cette variabilité dans le nombre de réponses apportées s’explique par l’architecture de Google. Il existe en effet plusieurs serveurs dispersés dans le monde, hébergeant l’index des pages visitées par Google. Selon l’endroit où se trouve un internaute (ou selon le site local de Google interrogé), sa requête est dirigée vers l’un ou l’autre de ces serveurs. Normalement, chaque index est identique aux autres ; mais comme ils ne sont pas synchronisés en temps réel (mais à des intervalles pouvant dépasser le mois), seul l’index principal, situé en Californie, est constamment à jour, et donne un maximum de réponses correctes. Le serveur principal peut donner ainsi dix fois plus de réponses qu’un serveur secondaire[réf. nécessaire].

Résultats récents

modifier

De par la conception de son algorithme de recherche qui favorise les sites Web avec beaucoup de liens entrants, l'efficacité de Google est limitée dans la recherche d'évènements reliés à l'actualité et aux nouveaux sites Web. Google prévoit toutefois de corriger cette faille dès 2010 en intégrant des évènements en temps réel dans ses résultats et en offrant la possibilité de les classer en ordre de publication[38].

Contenus haineux et radicalisation en ligne

modifier

Google bloque automatiquement certains mots-clés haineux, menant notamment à des contenus néonazis ou racistes. Mais sa liste de blocage est limitée. Francesca Tripodi, chercheuse américaine, professeure à l’UNC School of Information, montre dans une étude que des extrémistes la contournent en employant des expressions voisines qui ne sont pas bloquées, par exemple les mots anglais white power pour chercher des contenus liés au suprémacisme blanc. Elle montre aussi que les partis conservatistes américains orientent leur électorat-cible vers des contenus qui les arrangent. Pour ce faire, ils consacrent beaucoup d'argent au référencement de leurs propres pages sur Internet et utilisent pour cela des mots clés dérivés non bloqués par Google, et emploient ces mêmes mots clés dans leurs éléments de langage lors de leurs interventions publiques. Puis ils entretiennent la défiance de leur électorat envers les médias traditionnels et incitent les gens à faire leurs propres recherches sur Internet. De cette manière, les électeurs potentiellement intéressés formulent leurs recherches sur Google en utilisant les mots clés employés par les politiciens conservatistes et aboutissent majoritairement à des pages conservatistes au lieu d'avoir accès à une pluralité de points de vue. Ces techniques augmentent le risque de radicalisation raciste et xénophobe à l'issue des recherches sur Google[39].

Impact environnemental

modifier

D'après une étude du physicien Alex Wissner-Gross publiée par le Sunday Times en , une requête à l'aide du moteur de recherche Google émettait 7 grammes de CO2 ; cependant le physicien a nié avoir calculé l'empreinte carbone du moteur de recherche[40]. Google a de son côté répliqué le qu'une requête à l'aide de son moteur de recherche n'émettait que 0,2 gramme de CO2[41].

Selon l'entreprise, en 2017, Google reposait à 100 % sur de l'énergie renouvelable pour l'ensemble de ses activités à travers le monde, bureaux et centres de données compris[42].

Vie privée

modifier

Les recherches effectuées par les moteurs de recherche, Google compris, laissent des traces. Cela soulève des inquiétudes au niveau de la vie privée des gens. En principe, si l'on trouve des détails sur les recherches d'un utilisateur, ceux qui ont accès à l'information - principalement les organismes d'État responsables de l'application de la loi et des questions similaires - peuvent faire des déductions sur les activités de l'utilisateur. Cela a d'ailleurs été utilisé pour la détection et la poursuite des infractions de loi. Par exemple, un meurtrier a été retrouvé et condamné après avoir cherché des termes tels que «conseils pour tuer avec une batte de baseball»[43]. Une recherche peut laisser des traces à la fois sur un ordinateur utilisé pour effectuer la recherche et dans les enregistrements conservés par le fournisseur de recherche. Lorsque vous utilisez un moteur de recherche via un programme de navigateur sur un ordinateur, les termes de recherche et d'autres informations peuvent être stockés sur l'ordinateur par défaut, sauf si le navigateur est configuré pour ne pas le faire, ou ils sont effacés. Les termes enregistrés peuvent être découverts lors de l'analyse médico-légale de l'ordinateur. Un fournisseur d'accès à Internet (FAI) ou un fournisseur de moteur de recherche (par exemple, Google) peut stocker des enregistrements qui relient les termes de recherche à une adresse IP et un temps. La question de savoir si ces journaux sont conservés et leur accès par les organismes d'application de la loi est assujettie à des lois dans différentes juridictions et pratiques de travail. La loi peut exiger, interdire ou ne rien dire sur l'enregistrement de divers types d'informations. Certains moteurs de recherche, situés dans des juridictions où il n'est pas illégal, font une caractéristique de ne pas stocker les informations de recherche des utilisateurs.[réf. souhaitée]

En , à la suite de la révélation d'un vol de 2 500 documents internes confidentiels par Rand Fishkin[44], que Google finit par confirmer le 30 mai, l'usage de plusieurs données est révélé par le moteur de recherche, alors que plusieurs représentants de l'entreprise avaient affirmé à plusieurs reprise qu'elles ne l'étaient pas. Ces données concernent Navboost, l'algorithme révélé lors du procès antitrust de , et en particulier les comportements de navigation sur les pages web tels que les clics et les données utilisateur des navigateurs Chrome. Si il n'est pas clair que ces données soient encore exploitées à la date du vol, des doutes subsistent quant à l'exploitation des données issues des navigateurs Chrome[45],[46],[47]. Selon ces documents, Chrome aurait été principalement créé pour obtenir ces données de navigation, et permettrait d'identifier où et quand un clic est effectué, de connaître le contexte des clics sur des images et des vidéos, de savoir quand une recherche est reformulée après n'avoir pas donné satisfaction, et d'identifier les personnes qui ont créé chaque contenu[46].

Concurrence

modifier

On peut citer :

Ainsi que :

En 2018 en France, plusieurs institutions dont l'armée et l'Assemblée nationale ont décidé d'utiliser Qwant plutôt que Google comme moteur de recherche par défaut[49].

Critiques de la concurrence

modifier

Selon certains, si Google utilisait ses bénéfices de la même manière qu'Ecosia, il aurait planté 960 milliards d'arbres, soit un tiers des arbres estimés dans le monde[50].

Controverses

modifier

Influence du contenu des résultats affichés

modifier

En devenant le premier moteur de recherche en termes d'utilisation, Google est devenu le premier véhicule d'information sur Internet. Ce rôle, véhiculer l'information, est inhérent au métier des moteurs de recherche, et les problèmes qui en découlent ne sont donc pas tous imputables à Google, qui n'est pas l'auteur du contenu des pages. Mais comme le souligne Safiya Umoja Noble, chercheuse en sciences de l’information à l’Université de Californie du Sud, « Google est avant tout une plateforme publicitaire, et son moteur de recherche est très attentivement optimisé pour tirer des revenus des contenus qu’il fait remonter à la surface. » Dans Algorithms of Oppression, publié en février (NYU Press, non traduit), l’auteure américaine montre comment le mastodonte des moteurs de recherche assoit une nouvelle forme de sexisme et de racisme ordinaires, et pour elle, « il y a tout un tas d’idées qui ne font jamais surface, quantité de contenus qui sont supprimés. Certaines voix ont plus de place que d’autres, simplement parce qu’elles paient leur place plus cher. »[51].

Au-delà des difficultés posées par l'importance stratégique du classement de Google dans le domaine économique, le véritable problème réside dans la forte influence idéologique que possèdent les pages qui apparaissent dans les premiers résultats et qui font figure de parole d'évangile. La popularité d'un moteur de recherche tel que Google peut être utilisée comme vecteur de désinformation, où l'influence d'un site est d'autant plus importante que le mot-clef est populaire et qu'il se trouve en tête de liste.

Collusion avec la National Security Agency

modifier

La National Security Agency, services secrets des États-Unis d'Amérique, semble avoir accès à toutes les statistiques et informations regroupées par Google[52].

Affaire Tiananmen

modifier

Les dirigeants de la Chine, gênés qu'une recherche sur Tiananmen dans Google Images renvoie des photos de chars réprimant la révolte étudiante, ont obtenu en 2006 de Google que la requête « Tiananmen » sur le portail chinois de Google ne renvoie plus ces images[53].

Affaire des mots-clefs en France

modifier

En 2005, l'UMP et plus particulièrement Nicolas Sarkozy ont été critiqués pour avoir acheté des dizaines de mots-clefs comme « émeute », « CPE », « Jack Lang »… renvoyant sur le site de l'UMP.

Affaire DuckDuckGo

modifier

En , le fondateur de DuckDuckGo s'est plaint des pratiques anticoncurrentielles de Google lors d'une rencontre avec la FTC (Federal Trade Commission). Il s'est notamment plaint de la difficulté pour mettre DuckDuckGo par défaut sur le navigateur Google Chrome ainsi que le rachat du domaine duck.com par Google qui redirige maintenant vers google.com[54],[55].

Demandes de rétributions pour les fournisseurs de contenus

modifier

Plusieurs pays, dont la France et l'Australie, demandent que Google paie les médias dont il siphonne les contenus. En France, l'autorité de la concurrence somme Google de négocier avec les agences et éditeurs de presse la rémunération de leurs contenus en vertu des droits voisins. Dans le but de rétablir des conditions de concurrence équitables, le ministre australien du Budget présente un règlement contraignant les géants du numérique à payer les éditeurs de journaux pour l'utilisation de leurs contenus[56]. Le 12 janvier 2021, Google réagit par la menace d'interdire aux Australiens d'utiliser son moteur de recherche si le gouvernement ne modifie pas son projet de «code de conduite contraignant». Celui-ci vise Facebook et Google, avec des pénalités en cas d'infraction de plusieurs millions d'Euros. La directrice de Google Australia annonce la suspension de ses services de recherche si le projet de code passe tel quel. Le premier ministre australien répond:

C'est l'Australie qui fait les règles quant à ce qui peut être fait en Australie. C'est notre Parlement qui en décide (...) Les gens qui sont prêts à travailler dans ce cadre en Australie sont les bienvenus. Mais nous ne plions pas devant les menaces[57].

Notes et références

modifier
  1. (en) « Google's 18th Birthday »
  2. Prononciation en anglais américain retranscrite selon la norme API.
  3. Classement des moteurs de recherche sur Alexa.
  4. « Développez votre influence (1ère partie) : La matrice de recherche de mots-clés » (consulté le )
  5. Le Nouvel Économiste no 1566 Cahier no 2 du 12 au 18 mai 2011.
  6. Google and Akamai: Cult of Secrecy vs. Kingdom of Openness
  7. logo officiel de Google
  8. a et b « Outils linguistiques », sur www.google.fr (consulté le )
  9. « Effectuer une recherche avancée sur Google - Ordinateur - Aide Recherche Google », sur support.google.com (consulté le )
  10. « Opérateurs et aide supplémentaire pour la recherche », sur support.google.com (consulté le )
  11. « Comment bien chercher sur Google ? », sur JeRetiens, (consulté le )
  12. « Gagner en efficacité avec les opérateurs Google », 1&1 Digitalguide,‎ (lire en ligne, consulté le )
  13. How does Google collect and rank results?
  14. Mathilde Saliou, « Boutcha, charnier sur Google, havre de paix sur Yandex », sur Slate.fr, (consulté le )
  15. « What does "ei" mean in the Google homepage url https : //www.google.co.in/?gws_rd=cr&ei=xgH...? », sur Stack Overflow (consulté le ).
  16. Barry Schwartz, « Google Moves Ved Parameter In Search Results », Search Engine Roundtable, .
  17. a et b « Liste complète des paramètres utilisés par Google Search (variables dans l'URL) », WebRankInfo,‎ (lire en ligne, consulté le )
  18. fonctions complémentaires.
  19. Centre d'aide Google : Quels types de fichiers Google peut-il indexer ?
  20. « Recherches spécifiques à un site », sur support.google.com (consulté le ).
  21. Eureka Presse, « Google propose le téléchargement de son historique de recherche complet », sur cnetfrance.fr, (consulté le ).
  22. Google Movies « Copie archivée » (version du sur Internet Archive).
  23. [1].
  24. « Nouveauté Google : personnalisation des résultats », sur idfr.net, (version du sur Internet Archive)
  25. (en) « "Your Filter Bubble is Destroying Democracy" », sur wired.com, (consulté le )
  26. (en) « A quick word about Googlebombs | Google Search Central Blog », sur Google Developers (consulté le )
  27. Google Fight
  28. Google en ch'ti : Gogole, Google en wallon : Gôgueule, Google en flamand occidental : Hoegel, Google version boulet : Taggle, Google développé par la société Google en version "s3a|2ch : Google Hacker, Google miroir : i'm elgooG
  29. Audrey C., « Blackle : utiliser le moteur Google et économiser des watts », sur génération nouvelle technologie
  30. Par exemple les sites Blackle (ayant été lancé par la société australienne Heap Media et non Google) ou gllgle en français.
  31. (en) Marc Ramirez, « He thought he was singularly special until he found his Google twin », The Seattle Times,‎ (lire en ligne).
  32. (en) Lisa Heyamoto, « Me, myself and my google twin : Love 'em or be annoyed by 'em, someone — likely many someones — shares your name », The Sacramento Bee,‎ , E1..
  33. un article de bases-publications
  34. (en) Mark Liberman, « Google recall (They stole his mind,now he wants it back.) »,
  35. a et b Jean Véronis, « Comptes bidon chez Google »,
  36. Jean Véronis, « Web: Le mystère des pages manquantes de Google résolu »,
  37. Sébastien Gavois, « Google vient de mettre en ligne une infographie interactive afin de détailler un peu le principe de ... », sur pcinpact.com, Next INpact, (consulté le ).
  38. Essai du nouveau Google: meilleur pour le temps réel sur http://www.maximejohnson.com
  39. Sur Google, les conservateurs font les questions et les réponses, article de Nicolas Celnik dans Libération le 9 mars 2023. Page consultée le 9 mars 2023.
  40. Imbroglio sur la pollution générée par les recherches Google
  41. Powering a Google search, 11 janvier 2009
  42. 100 % renouvelable, et ce n'est que le début
  43. (en) « Once Again, A Google Murder Case », sur searchengland.com, (consulté le )
  44. (en) Rand Fishkin, « An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them », sur sparktoro.com,
  45. (en) Mia Sato, « Google confirms the leaked Search documents are real », The Verge,‎ (lire en ligne)
  46. a et b Vincent Hermann, « [Màj] Une vaste fuite met en lumière le fonctionnement de la recherche Google », sur Next (site web), (consulté le )
  47. Raph Pix, « Google confirme une fuite de documents sur son moteur de recherche », CNET,‎ (lire en ligne)
  48. Florence Bauchard, « moteurs pour se passer de google », les echos week end,‎ , p. 36 et 37
  49. « Comme l’armée française, l’Assemblée nationale va abandonner Google pour Qwant », sur ouest-france.fr, (consulté le )
  50. (en) M. A. Bradford, P. R. Crane, M. S. Ashton et C. W. Rowe, « Mapping tree density at a global scale », Nature, vol. 525, no 7568,‎ , p. 201–205 (ISSN 1476-4687, DOI 10.1038/nature14967, lire en ligne, consulté le )
  51. Libération du 3-4/11/2018, Safiya Umoja Noble : « Avec Google, nous utilisons des technologies qui censurent, mais nous ne voulons pas le voir » [2]
  52. (en) "Don't Be Evil", Meet "Spy on Everyone": How the NSA Deal Could Kill Google sur wired.com
  53. requêtes Tiananmen sur Google China
  54. (en-US) Diane Bartz, « Google competitor DuckDuckGo says it's getting shut out », The Sydney Morning Herald,‎ (lire en ligne, consulté le )
  55. « Le clash entre le fondateur de DuckDuckGo et Google », Ya-graphic.com,‎ (lire en ligne, consulté le )
  56. Zone Économie- ICI.Radio-Canada.ca, « L'Australie veut obliger Google et Facebook à rémunérer les contenus », sur Radio-Canada.ca (consulté le )
  57. « Google menace de bloquer son moteur de recherche en Australie », sur LEFIGARO (consulté le )

Voir aussi

modifier

Articles connexes

modifier

Liens externes

modifier