« Moteur de recherche » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
m v2.05b - Bot T3 PCS#64 - Correction syntaxique (Lien interne avec cible identique au texte - Orthographe et typographie - Paramètre inutilisé)
(37 versions intermédiaires par 23 utilisateurs non affichées)
Ligne 2 : Ligne 2 :
{{À sourcer|date=septembre 2010}}
{{À sourcer|date=septembre 2010}}
[[Fichier:Qwant v5.png|alt=Capture d'écran d'une page de résultat de recherche|vignette|340x340px|Capture d'écran d'une page de résultat de recherche]]
[[Fichier:Qwant v5.png|alt=Capture d'écran d'une page de résultat de recherche|vignette|340x340px|Capture d'écran d'une page de résultat de recherche]]
Un '''moteur de recherche''' est une application permettant à un utilisateur d'effectuer une '''recherche locale''' ou '''en ligne''', c'est-à-dire de trouver des ressources à partir d'une requête composée de termes. Les ressources peuvent notamment être des [[page Web|pages web]], des [[Article de revue|articles]] de [[Forum (informatique)|forums]] [[Usenet]], des [[image numérique|images]], des [[vidéo]]s, des [[Fichier informatique|fichiers]], des ouvrages, des sites pédagogiques, des [[application (informatique)|applications]], des [[Open_source|logiciels open source]].
Un '''moteur de recherche''' est une [[Application (informatique)|application]] permettant à un utilisateur d'effectuer une '''recherche locale''' ou '''en ligne''', c'est-à-dire de trouver des ressources à partir d'une requête composée de termes. Les ressources peuvent notamment être des [[page Web|pages web]], des [[Article de revue|articles]] de [[Forum (informatique)|forums]] [[Usenet]], des [[image numérique|images]], des [[vidéo]]s, des [[Fichier informatique|fichiers]], des ouvrages, des sites, pédagogiques, des [[application (informatique)|applications]], des [[Open_source|logiciels open source]].


Sur le principe, ils fonctionnent généralement :
Sur le principe, ils fonctionnent généralement :


* avec une [[Indexation automatique de documents|indexation]] du contenu des sites internet dans une ou plusieurs [[base de données]] de l'exploitant du moteur de recherche, indexation effectuée préalablement à la recherche.
* avec une [[Indexation automatique de documents|indexation]] du contenu des sites internet dans une ou plusieurs [[base de données]] de l'exploitant du moteur de recherche, indexation effectuée préalablement à la recherche.
* Ainsi, le moteur restitue, en fonction de ses paramètres (exemple : les différents algorithmes de recherche de Google) une liste de pages correspondant aux mots recherchés.
* Ainsi, le moteur restitue, en fonction de ses paramètres (exemple : les différents algorithmes de recherche de Google) une liste de pages correspondant aux mots recherchés.


Certains [[Site web|sites web]] offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors « moteur de recherche » le site lui-même. Ce sont des [[Instrument de recherche|recherche]] sur le [[World Wide Web|web]] sans intervention humaine, ce qui les distingue des [[Annuaire web|annuaires]]. Ils sont basés sur des « [[Robot d'indexation|robots]] », encore appelés « ''bots'' », « ''spiders'' «, « ''crawlers'' » ou « agents », qui parcourent automatiquement les [[Site web|sites]] à intervalles réguliers afin de découvrir de nouvelles adresses ([[Uniform Resource Locator|URL]]). Ils suivent les [[Hyperlien|liens hypertexte]] qui relient les pages les unes aux autres, les uns après les autres. Chaque page identifiée est alors [[Indexation automatique|indexée]] dans une [[base de données]], accessible ensuite par les [[internaute]]s à partir de [[Mot clé|mots-clés]].
Certains [[Site web|sites web]] offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors « moteur de recherche » le site lui-même. Ce sont des [[Instrument de recherche|recherches]] sur le [[World Wide Web|web]] sans intervention humaine, ce qui les distingue des [[Annuaire web|annuaires]]. Ils sont basés sur des « [[Robot d'indexation|robots]] », encore appelés « ''bots'' », « ''spiders'' «, « ''crawlers'' » ou « agents », qui parcourent automatiquement les [[Site web|sites]] à intervalles réguliers afin de découvrir de nouvelles adresses ([[Uniform Resource Locator|URL]]). Ils suivent les [[Hyperlien|liens hypertexte]] qui relient les pages les unes aux autres, les uns après les autres. Chaque page identifiée est alors [[Indexation automatique|indexée]] dans une [[base de données]], accessible ensuite par les [[internaute]]s à partir de [[Mot clé|mots-clés]].


C'est par abus de langage qu'on appelle également « moteurs de recherche » des sites web proposant des annuaires de sites web : dans ce cas, ce sont des instruments de recherche élaborés par des personnes qui répertorient et classifient des sites web jugés dignes d'intérêt, et non des robots d'indexation.
C'est par abus de langage qu'on appelle également « moteurs de recherche » des sites web proposant des annuaires de sites web : dans ce cas, ce sont des instruments de recherche élaborés par des personnes qui répertorient et classifient des sites web jugés dignes d'intérêt, et non des robots d'indexation.


Les moteurs de recherche ne s'appliquent pas qu'à Internet : certains moteurs sont des [[logiciel]]s installés sur un [[ordinateur personnel]]. Ce sont des moteurs dits « de bureau » qui combinent la recherche parmi les [[Fichier (informatique)|fichiers]] stockés sur le [[Compatible PC|PC]] et la recherche parmi les sites Web — on peut citer par exemple [[Copernic (société)|Copernic]] Desktop Search, Windex Server, etc.
Les moteurs de recherche ne s'appliquent pas uniquement à Internet : certains moteurs sont des [[logiciel]]s installés sur un [[ordinateur personnel]]. Ce sont des moteurs dits « de bureau » qui combinent la recherche parmi les [[Fichier (informatique)|fichiers]] stockés sur le [[Compatible PC|PC]] et la recherche parmi les sites Web — on peut citer par exemple [[Copernic (société)|Copernic]] Desktop Search, Windex Server, etc.


On trouve également des [[métamoteur]]s, c'est-à-dire des sites web où une même recherche est lancée simultanément sur plusieurs moteurs de recherche, les résultats étant ensuite fusionnés pour être présentés à l'[[internaute]].
On trouve également des [[métamoteur]]s, c'est-à-dire des sites web où une même recherche est lancée simultanément sur plusieurs moteurs de recherche, les résultats étant ensuite fusionnés pour être présentés à l'[[internaute]].
Ligne 26 : Ligne 26 :
Les moteurs de recherche sont inspirés des outils de [[recherche documentaire]] (à base de [[Dictionnaire inverse|fichiers inversés]], alias [[Fichier_indexé|fichiers d'index]]) utilisés sur les [[mainframe|mainframes]] depuis les années 1970, comme le logiciel STAIRS sur [[IBM]]. Le mode de remplissage de leurs [[Base de données|bases de données]] est cependant différent, car orienté [[réseau]]. Par ailleurs la distinction entre données formatées (« champs ») et texte libre n'y existe plus, bien que commençant depuis 2010 à se réintroduire par le biais du [[web sémantique]].
Les moteurs de recherche sont inspirés des outils de [[recherche documentaire]] (à base de [[Dictionnaire inverse|fichiers inversés]], alias [[Fichier_indexé|fichiers d'index]]) utilisés sur les [[mainframe|mainframes]] depuis les années 1970, comme le logiciel STAIRS sur [[IBM]]. Le mode de remplissage de leurs [[Base de données|bases de données]] est cependant différent, car orienté [[réseau]]. Par ailleurs la distinction entre données formatées (« champs ») et texte libre n'y existe plus, bien que commençant depuis 2010 à se réintroduire par le biais du [[web sémantique]].


Des moteurs historiques ont été [[Lycos (portail web)|Lycos]] (1994), [[Altavista]] (1995, premier moteur 64 bits) et [[Google|Backrub]] (1997), ancêtre de [[Google]].
Des moteurs historiques ont été [[Yahoo!]] (1994), [[Lycos (portail web)|Lycos]] (1994), [[Altavista]] (1995, premier moteur 64 bits) et [[Google|Backrub]] (1997), ancêtre de [[Google]] (1998).


Google apporte un changement important: il stocke dans ses serveurs les pages qu'il indexe, ce que ne faisaient pas alors les autres moteurs.
Pour réponde aux besoins des étudiants, des universitaires, chercheurs et ingénieurs, des moteurs spécialisés dédiés aux sujets scientifiques et techniques sont apparus.

Pour répondre aux besoins des étudiants, des universitaires, chercheurs et ingénieurs, des moteurs spécialisés destinés aux sujets scientifiques et techniques sont apparus.


== Fonctionnement ==
== Fonctionnement ==
Ligne 35 : Ligne 37 :
Le fonctionnement d'un moteur de recherche comme tout [[instrument de recherche]] se décompose en trois processus principaux :
Le fonctionnement d'un moteur de recherche comme tout [[instrument de recherche]] se décompose en trois processus principaux :


# '''L'exploration''' ou ''crawl'' : le web est systématiquement exploré par un [[robot d'indexation]] suivant [[récursivité|récursivement]] tous les [[hyperlien]]s qu'il trouve et récupérant les ressources jugées intéressantes. L'exploration est lancée depuis une ressource pivot, comme une page d'[[annuaire web]]. Un moteur de recherche est d'abord un outil d'[[indexation automatique de documents|indexation]], c'est-à-dire qu'il dispose d'une [[technologie]] de collecte de documents à distance sur les sites Web, via un outil que l'on appelle [[robot]] ou [[bot informatique|bot]]. Un robot d'indexation dispose de sa propre signature (comme chaque navigateur web). Par exemple, [[Googlebot]] est le [[user agent]] (signature) du crawler de [[Google]] ; BingBot est celui de [[Bing (moteur de recherche)|Bing]] ; AppleBot celui de [[Apple]].
# '''L'exploration''' ou ''crawl'' : le web est systématiquement exploré par un [[robot d'indexation]] suivant [[récursivité|récursivement]] tous les [[hyperlien]]s qu'il trouve et récupérant les ressources jugées intéressantes. L'exploration est lancée depuis une ressource pivot, comme une page d'[[annuaire web]]. Un moteur de recherche est d'abord un outil d'[[indexation automatique de documents|indexation]], c'est-à-dire qu'il dispose d'une [[technologie]] de collecte de documents à distance sur les sites Web, via un outil que l'on appelle [[robot]] ou [[bot informatique|bot]]. Un robot d'indexation dispose de sa propre signature (comme chaque navigateur web). Par exemple, [[Googlebot]] est le [[user agent]] (signature) du crawler de [[Google]] ; BingBot est celui de [[Bing (moteur de recherche)|Bing]] ; AppleBot celui de [[Apple]].
# '''L'[[Indexation automatique de documents|indexation]]''' des ressources récupérées consiste à extraire les mots considérés comme significatifs du [[corpus|corpus à explorer]]. Les mots extraits sont enregistrés dans une [[base de données]] organisée comme un gigantesque [[dictionnaire inverse]] ou, plus exactement, comme l'[[index terminologique]] d'un ouvrage, qui permet de retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme significatif donné. Les termes non significatifs dans un contexte donné s'appellent des [[Mot vide|mots vides]]. Les termes significatifs sont associés à un ''poids''. Celui-ci reflète à la fois la probabilité d'apparition du mot dans un document et le « pouvoir discriminant de ce mot » dans une langue, conformément au principe de la formule [[TF-IDF]]. L'indexation s'effectue après un ensemble de traitement [[Syntaxe|syntaxiques]] et [[Sémantique|sémantiques]] ([[lemmatisation]], [[catégorisation]], suppression des mots « vide »…) et [[Algorithmique|algorithmiques]] selon différentes techniques basées aujourd'hui sur l'[[intelligence artificielle]] ([[Word2vec|Word2Vec]], [[Allocation de Dirichlet latente|LDA]]…).
# '''L'[[Indexation automatique de documents|indexation]]''' des ressources récupérées consiste à extraire les mots considérés comme significatifs du [[corpus|corpus à explorer]]. Les mots extraits sont enregistrés dans une [[base de données]] organisée comme un gigantesque [[dictionnaire inverse]] ou, plus exactement, comme l'[[index terminologique]] d'un ouvrage, qui permet de retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme significatif donné. Les termes non significatifs dans un contexte donné s'appellent des [[Mot vide|mots vides]]. Les termes significatifs sont associés à un ''poids''. Celui-ci reflète à la fois la probabilité d'apparition du mot dans un document et le « pouvoir discriminant de ce mot » dans une langue, conformément au principe de la formule [[TF-IDF]]. L'indexation s'effectue après un ensemble de traitement [[Syntaxe|syntaxiques]] et [[Sémantique|sémantiques]] ([[lemmatisation]], [[catégorisation]], suppression des mots « vide »…) et [[Algorithmique|algorithmiques]] selon différentes techniques basées aujourd'hui sur l'[[intelligence artificielle]] ([[Word2vec|Word2Vec]], [[Allocation de Dirichlet latente|LDA]]…).
# '''La recherche''' correspond à la partie ''requêtes'' du moteur, qui restitue les [[Page de résultats d'un moteur de recherche|résultats]]. Un [[Algorithmique|algorithme]] est appliqué pour identifier dans le [[corpus|corpus documentaire]] (en utilisant l'index), les documents qui correspondent le mieux aux mots contenus dans la requête, afin de [[Page de résultats d'un moteur de recherche|présenter les résultats des recherches]] par ordre de pertinence supposée. Les algorithmes de recherche font l'objet de très nombreuses investigations [[Science|scientifiques]]. Les moteurs de recherche les plus simples se contentent de [[modèle booléen|requêtes booléennes]] pour comparer les mots d'une requête avec ceux des documents. Mais cette méthode atteint vite ses limites sur des corpus volumineux. Les moteurs plus évolués sont basés sur le paradigme du [[modèle vectoriel]] : ils utilisent la formule TF-IDF pour mettre en relation le poids des mots dans une requête avec ceux contenus dans les documents. Cette formule est utilisée pour construire des vecteurs de mots, comparés dans un [[espace vectoriel]], par une [[similarité cosinus]]. Pour améliorer encore les performances d'un moteur, il existe de nombreuses techniques, la plus connue étant celle du [[PageRank]] de [[Google]] qui permet de pondérer une mesure de cosinus en utilisant un indice de notoriété de pages. Les recherches les plus récentes utilisent la méthode dites [[Analyse sémantique latente|d'analyse sémantique latente]] qui tente d'introduire l'idée de cooccurrences dans la recherche de résultats (le terme « voiture » est automatiquement associé à ses mots proches tels que « garage » ou un nom de marque dans le critère de recherche).
# '''La recherche''' correspond à la partie ''requêtes'' du moteur, qui restitue les [[Page de résultats d'un moteur de recherche|résultats]]. Un [[Algorithmique|algorithme]] est appliqué pour identifier dans le [[corpus|corpus documentaire]] (en utilisant l'index), les documents qui correspondent le mieux aux mots contenus dans la requête, afin de [[Page de résultats d'un moteur de recherche|présenter les résultats des recherches]] par ordre de pertinence supposée. Les algorithmes de recherche font l'objet de très nombreuses investigations [[Science|scientifiques]]. Les moteurs de recherche les plus simples se contentent de [[modèle booléen|requêtes booléennes]] pour comparer les mots d'une requête avec ceux des documents. Mais cette méthode atteint vite ses limites sur des corpus volumineux. Les moteurs plus évolués sont basés sur le paradigme du [[modèle vectoriel]] : ils utilisent la formule TF-IDF pour mettre en relation le poids des mots dans une requête avec ceux contenus dans les documents. Cette formule est utilisée pour construire des vecteurs de mots, comparés dans un [[espace vectoriel]], par une [[similarité cosinus]]. Pour améliorer encore les performances d'un moteur, il existe de nombreuses techniques, la plus connue étant celle du [[PageRank]] de [[Google]] qui permet de pondérer une mesure de cosinus en utilisant un indice de notoriété de pages. Les recherches les plus récentes utilisent la méthode dites [[Analyse sémantique latente|d'analyse sémantique latente]] qui tente d'introduire l'idée de cooccurrences dans la recherche de résultats (le terme « voiture » est automatiquement associé à ses mots proches tels que « garage » ou un nom de marque dans le critère de recherche).
Ligne 48 : Ligne 50 :
! '''L'anti-dictionnaire :'''
! '''L'anti-dictionnaire :'''
|-
|-
|Il permet de corriger les erreurs introduites dans les mots de la requête en s'assurant de leur pertinence par la prise en compte de leur forme canonique.
|Il permet de corriger les erreurs introduites dans les mots de la requête en s'assurant de leur pertinence par la prise en compte de leur forme canonique.
|Il permet de réduire les mots recherchés à leur [[Lemme (linguistique)|lemme]] pour ainsi étendre leur portée de recherche.
|Il permet de réduire les mots recherchés à leur [[Lemme (linguistique)|lemme]] pour ainsi étendre leur portée de recherche.
<br />
<br />
|Il supprime tous les [[Mot vide|mots « vides »]] (tels que « de », « le », « la ») qui sont non-discriminants, et qui perturbent le score de recherche en introduisant du [[Bruit et silence|bruit]]. La suppression se fait dans l'index et dans les requêtes.
|Il supprime tous les [[Mot vide|mots « vides »]] (tels que « de », « le », « la ») qui sont non-discriminants, et qui perturbent le score de recherche en introduisant du [[Bruit et silence|bruit]]. La suppression se fait dans l'index et dans les requêtes.
Ligne 104 : Ligne 106 :
* [[Yatedo]], moteur de recherche de personnes utilise la sémantique afin d'extraire les informations relatives à une personne sur une page Web.
* [[Yatedo]], moteur de recherche de personnes utilise la sémantique afin d'extraire les informations relatives à une personne sur une page Web.


== Évolution vers le mix moteur et annuaire ==
== Évolution vers le moteur et annuaire ==
{{Section à sourcer|date=octobre 2015}}
{{Section à sourcer|date=octobre 2015}}
=== Les recherches d'adresses sur internet ===
=== Les recherches d'adresses sur internet ===
Ligne 113 : Ligne 115 :
Les moteurs de recherche qui par définition collectent uniquement des données issues de l'internet, ont donc été obligés d'acquérir et de proposer ces adresses d'annuaire en complément pour satisfaire la recherche d'adresses des internautes. [[Google]] a baptisé ces adresses « Google Adresses », puis d'office basculées vers « Google + », actuellement « [[Google My Business]] ». Les moteurs de recherche [[Bing (moteur de recherche)|Bing]] et [[Google]] ne communiquent pas l'origine de ces fichiers d'entreprises intégrés, hormis Yahoo! qui est en partenariat avec [[Pages Jaunes (France)|Pages Jaunes]].
Les moteurs de recherche qui par définition collectent uniquement des données issues de l'internet, ont donc été obligés d'acquérir et de proposer ces adresses d'annuaire en complément pour satisfaire la recherche d'adresses des internautes. [[Google]] a baptisé ces adresses « Google Adresses », puis d'office basculées vers « Google + », actuellement « [[Google My Business]] ». Les moteurs de recherche [[Bing (moteur de recherche)|Bing]] et [[Google]] ne communiquent pas l'origine de ces fichiers d'entreprises intégrés, hormis Yahoo! qui est en partenariat avec [[Pages Jaunes (France)|Pages Jaunes]].


== Part de marché hors Asie ==
== Part de marché {{Pourquoi|hors Asie}} ==
{{Article détaillé|Liste des moteurs de recherche}}
{{Article détaillé|Liste des moteurs de recherche}}
{| class="wikitable"
{| class="wikitable"
|+Part de marché mise à jour début 2022<ref>{{Lien web|langue=fr-FR|nom1=Influence|prénom1=|titre=Les parts de marché 2022 des moteurs de recherche en France et dans le Monde|url=https://www.leptidigital.fr/webmarketing/seo/parts-marche-moteurs-recherche-france-monde-11049/|site=leptidigital.fr|date=2022-04-02|consulté le=2022-07-04}}.</ref>.
|+Part de marché mise à jour début 2022<ref>{{Lien web|langue=fr-FR|nom1=Influence|titre=Les parts de marché 2022 des moteurs de recherche en France et dans le Monde|url=https://www.leptidigital.fr/webmarketing/seo/parts-marche-moteurs-recherche-france-monde-11049/|site=leptidigital.fr|date=2022-04-02|consulté le=2022-07-04}}.</ref>.
!Moteur
!Moteur
!Logo
!Logo
Ligne 201 : Ligne 203 :
Les [[métamoteur]]s sont des outils de recherche qui interrogent plusieurs moteurs de recherche simultanément et affichent à l'internaute une synthèse pertinente.
Les [[métamoteur]]s sont des outils de recherche qui interrogent plusieurs moteurs de recherche simultanément et affichent à l'internaute une synthèse pertinente.


Exemples : [[Startpage]], [[Searx]], [[Seeks]] et [[Lilo (moteur de recherche)|Lilo]], [[Framabee]].
Exemples : [[Startpage]], [[Searx]], [[Seeks]], [[Lilo (moteur de recherche)|Lilo]], [[Framabee]], [[Kagi (moteur de recherche)|Kagi]]...


== Multi-moteurs ==
== Multi-moteurs ==
{{...}}
{{...}}
On désigne par « {{lien|fr=multi-moteurs|lang=en|trad=Multisearch}} » (ou plus rarement, « super moteur »<ref>[http://buze.michel.chez.com/123/recherche.htm vu.fr/search] et <s>[[Hooseek]] (disparu)</s> se désignent comme des supermoteurs et Supermoteur était le nom d'un multi-moteur</ref>) une [[page web]] proposant un ou plusieurs [[Formulaire#En informatique|formulaires]] permettant d'interroger plusieurs moteurs. Il peut également (mais plus rarement) s'agir d'un logiciel, d'une fonction ou d'un plugin de [[navigateur web]], ou d'une [[barre d'outils]]…
On désigne par « {{lien|fr=multi-moteurs|lang=en|trad=Multisearch}} » (ou plus rarement, « super moteur »<ref>[http://buze.michel.chez.com/123/recherche.htm vu.fr/search] et se désignent comme des supermoteurs et Supermoteur était le nom d'un multi-moteur</ref>) une [[page web]] proposant un ou plusieurs [[Formulaire#En informatique|formulaires]] permettant d'interroger plusieurs moteurs. Il peut également (mais plus rarement) s'agir d'un logiciel, d'une fonction ou d'une [[Extension de navigateur|extension]] de [[navigateur web]], ou d'une [[barre d'outils]]…


Le choix d'un des moteurs peut se faire par [[bouton (informatique)|bouton]], [[bouton radio]], [[onglet (informatique)|onglet]], [[liste déroulante]] ou autre.
Le choix d'un des moteurs peut se faire par [[bouton (informatique)|bouton]], [[bouton radio]], [[onglet (informatique)|onglet]], [[liste déroulante]] ou autre.


Les premières pages de ce type recopiaient le code des formulaires de plusieurs moteurs. Avec l'apparition du [[JavaScript]] il est devenu possible de n'avoir plus qu'un seul formulaire.<br />
Les premières pages de ce type recopiaient le code des formulaires de plusieurs moteurs. Avec l'apparition du [[JavaScript]] il est devenu possible de n'avoir plus qu'un seul formulaire.<br />
On peut citer par exemple [[Creative Commons|Creative Commons Search]]<ref>[http://search.creativecommons.org/?lang=fr Creative Commons Search]</ref>, [[Ecosia]], [[Disconnect (logiciel)|Disconnect]], le moteur de recherche de [[Maxthon]], [[HooSeek]] (fermé en 2012), searchall.net, etc.
On peut citer par exemple [[Creative Commons|Creative Commons Search]]<ref>[http://search.creativecommons.org/?lang=fr Creative Commons Search]</ref>, [[Ecosia]], [[Disconnect (logiciel)|Disconnect]], le moteur de recherche de [[Maxthon]], HooSeek (fermé en 2012), searchall.net, etc.


== Moteurs ou métamoteurs dédiés à la littérature scientifique et technique ==
== Moteurs ou métamoteurs destinés à la littérature scientifique et technique ==
Le moteur de recherche le plus connu et le plus utilisé concernant la littérature scientifique et technique est [[Google Scholar]], dont l'algorithme indexe un grand nombre de bases de données et de métadonnées structurées de littérature scientifique et technique et de brevets, mais il existe d'autres moteurs, plus ou moins spécialisés :
Le moteur de recherche le plus connu et le plus utilisé concernant la littérature scientifique et technique est [[Google Scholar]], dont l'algorithme indexe un grand nombre de bases de données et de métadonnées structurées de littérature scientifique et technique et de brevets, mais il existe d'autres moteurs, plus ou moins spécialisés :
{| class="wikitable"
{| class="wikitable"
|+ Les grands moteurs de recherche du domaine scientifique (en 2022)
|+ Les grands moteurs de recherche du domaine scientifique (en 2022)
|-
|-
! Nom !! Descriptif !! Lien
! Nom !! Descriptif
|-
| [[Bielefeld Academic Search Engine|Base]] (''Bielefeld Academic Search Engine'')|| Spécialisé dans l’échange d’archives numériques<ref>{{Lien web |titre=BASE - Bielefeld Academic Search Engine | Statistics |url=https://www.base-search.net/about/en/about_statistics.php |site=base-search.net |consulté le=2023-01-06}}.</ref>, il explore plus de 300 millions de documents d'intérêt scientifique, issus de plus de {{nombre|10000}} ressources libres (en 2022) et exploitant l'[[Open Archives Initiative]] (OAI).|| https://www.base-search.net/
|-
|-
| [[Bielefeld Academic Search Engine|Base]] (''Bielefeld Academic Search Engine'')|| Spécialisé dans l’échange d’archives numériques<ref>{{Lien web |titre=BASE - Bielefeld Academic Search Engine | Statistics |url=https://www.base-search.net/about/en/about_statistics.php |site=base-search.net |consulté le=2023-01-06}}.</ref>, il explore plus de 300 millions de documents d'intérêt scientifique, issus de plus de {{nombre|10000}} ressources libres (en 2022) et exploitant l'[[Open Archives Initiative]] (OAI).
| [[OAIster]] (moteur du [[WorldCat Discovery]])|| fouille les [[corpus]] d'images de plus de 500 entités académiques : articles de journaux, textes, livres, vidéos, sons open-sources et d'intérêt académique, avec environ 25 millions de notices en 2022 ; plutôt orienté Biologie, médecine et chimie||https://oaister.on.worldcat.org/discovery
|-
|-
| [[OAIster]] (moteur du [[WorldCat Discovery]])|| fouille les [[corpus]] d'images de plus de 500 entités académiques : articles de journaux, textes, livres, vidéos, sons open-sources et d'intérêt académique, avec environ 25 millions de notices en 2022 ; plutôt orienté Biologie, médecine et chimie
| [[BioTechSearchEngine]] ||fouille les contenus d'environ 300 revues en libre accès || https://biosearch.berkeley.edu/
|-
|-
| [[BioMedCentral]] ||fouille les contenus en libre accès de 200 revues des domaines de la médecine et la biologie et en médecine|| -
| [[BioTechSearchEngine]] ||fouille les contenus d'environ 300 revues en libre accès
|-
|-
| [[BioMed Central]] ||fouille les contenus en libre accès de 200 revues des domaines de la médecine et la biologie et en médecine
| [[PubChem]] ||dédié à la chimie|| -
|-
|-
| [[ProfusionChimie]] || dédié à la chimie|| -
| [[PubChem]] ||destiné à la chimie
|-
|-
| [[CiteSeerX]] || bibliothèque numérique et moteur de recherche, dédié aux sciences de l’information et à l'informatique|| -
| [[CiteSeerX]] || bibliothèque numérique et moteur de recherche, destiné aux sciences de l’information et à l'informatique
|-
|-
| [[TechXtra]] || explore des articles, ouvrage, journaux, rapports techniques, thèses, mémoires et « ressources éducatives libres » (OER)|| -
| [[TechXtra]] || explore des articles, ouvrage, journaux, rapports techniques, thèses, mémoires et « ressources éducatives libres » (OER)
|-
|-
| [[WorldWideScience]] || dédié aux brevets et aux contenus issus de [[sociétés savantes]] du monde entier|| -
| [[WorldWideScience]] || destiné aux brevets et aux contenus issus de [[sociétés savantes]] du monde entier
|-
|-
| Moteur de l’[[INIST]] || information scientifique et technique|| -
| Moteur de l’[[INIST]] || information scientifique et technique
|-
|-
| [[Science.gov]]|| Portail gouvernemental français|| -
| Science.gouv|| Portail gouvernemental français ''(disparu)''
|-
|-
| [[NARCIS]] ||co-élaboré et géré par l'[[Académie royale néerlandaise des arts et des sciences]] et le Canada Institute for Scientific and Technical Information|| -
| [[NARCIS]] ||co-élaboré et géré par l'[[Académie royale néerlandaise des arts et des sciences]] et le Canada Institute for Scientific and Technical Information
|-
|-
| [[Journal@rchive]] (japonais) || Exemple || -
| [[Journal@rchive]] (japonais) || Archives de journaux et revues scientifiques japonaises.
|-
|-
| [[Isidore (moteur de recherche)]] || conçu par le [[CNRS]] pour les étudiants, doctorants, enseignants et chercheurs en [[sciences humaines et sociales]]. Il explore 3 millions de documents dans plus de {{nombre|2000}} sources (en 2022), dont notamment du [[SUDOC]], de la [[BnF]], de la [[bibliothèque du Congrès]], et de l'[[Institut de recherche et d'histoire des textes]]|| -
| [[Isidore (plateforme)|Isidore]]|| conçu par le [[CNRS]] pour les étudiants, doctorants, enseignants et chercheurs en [[sciences humaines et sociales]]. Il explore 3 millions de documents dans plus de {{nombre|2000}} sources (en 2022), dont notamment du [[SUDOC]], de la [[BnF]], de la [[bibliothèque du Congrès]], et de l'[[Institut de recherche et d'histoire des textes]]
|-
|-
| [[Jurn]] ||dédié aux arts et aux sciences humaines et sociales (SHS), avec un accès à plus de {{nombre|1000}} revues électroniques en libre accès|| -
| [[Jurn]] ||destiné aux arts et aux sciences humaines et sociales (SHS), avec un accès à plus de {{nombre|1000}} revues électroniques en libre accès
|}
|}


== Moteurs de recherche solidaires ou écologiques ==
== Moteurs de recherche solidaires ou écologiques ==
On désigne par « moteur de recherche solidaire », un moteur qui reverse une partie de ses revenus à des causes écologiques, sociales ou humanitaires. Ces moteurs sont nés du constat que les revenus annuels générés par la publicité sur les moteurs de recherche sont assez importants (environ {{unité|45|$}} par utilisateur pour Google<ref>http://www.digitalstrategyconsulting.com/intelligence/2014/06/ad_revenue_per_user_google_facebook_twitter.php</ref>). Les moteurs de recherches solidaires se distinguent notamment dans la façon de distribuer les revenus générés. Certains moteurs comme [[Ecosia]] reversent alors une partie des revenus à une seule et unique cause, alors que des moteurs comme [[Lilo (moteur de recherche)|Lilo]] permettent aux internautes de choisir les projets à financer.
On désigne par « moteur de recherche solidaire », un moteur qui reverse une partie de ses revenus à des causes écologiques, sociales ou humanitaires. Ces moteurs sont nés du constat que les revenus annuels générés par la publicité sur les moteurs de recherche sont assez importants (environ {{unité|45|$}} par an par utilisateur pour Google en 2014<ref>{{lien web |titre=How much are you worth? Average revenue per user at Google, Facebook and Twitter<!-- Vérifiez ce titre --> |url=https://archive.wikiwix.com/cache/20180529102159/http://www.digitalstrategyconsulting.com/intelligence/2014/06/ad_revenue_per_user_google_facebook_twitter.php |site=digitalstrategyconsulting.com via [[Wikiwix]] |consulté le=09-10-2023}}.</ref>). Les moteurs de recherches solidaires se distinguent notamment dans la façon de distribuer les revenus générés. Certains moteurs comme [[Ecosia]] reversent alors une partie des revenus à une seule et unique cause, alors que des moteurs comme [[Lilo (moteur de recherche)|Lilo]] et [[YouCare]] permettent aux internautes de choisir les projets à financer.


Certains moteurs ont également adopté une politique de [[neutralité carbone]], tels que Google, DuckDuckGo et [[Ecosia]]. Google affirme qu'il sera neutre en carbone d'ici 2030, en partie en achetant des [[Énergie renouvelable|énergies renouvelables]] et dès 2017, l'entreprise en rachète autant qu'elle en consomme. Au début des années 2020 Google est le plus gros acheteur privé au monde de ce type d'énergie. Les énergies renouvelables étant essentiellement intermittentes, Google ne peut les utiliser directement ou de façon permanente : une entreprise qui se déclare neutre en carbone utilise dans les faits des « garanties d’origines renouvelables » qui permettent de s'assurer que l'énergie carbonée qu'elle consomme sera compensée par une production équivalente d'énergie renouvelable. Or, selon l'association [[The Shift Project]], le modèle économique de Google nécessite toujours plus de puissance de calcul, de renouveler et d'augmenter son infrastructure, ses réseaux et ses équipements dont la production est une source importante de gaz à effet de serre. Pour l'[[association négaWatt]], la communication de Google se focalise sur l'usage mais éclipse les problèmes environnementaux liés à l'[[Mine (gisement)|extraction des ressources]], du transport et du recyclage<ref>{{lien web|auteur=Lucas Martin-Brodzicki|titre=Neutralité carbone : pourquoi Google reste malgré tout un danger pour le climat|url=https://www.humanite.fr/planete/google/neutralite-carbone-pourquoi-google-reste-malgre-tout-un-danger-pour-le-climat-697530|site=[[L'Humanité]]|date=15 décembre 2020|consulté le=31 mars 2022}}.</ref>{{,}}<ref>{{lien web|auteur=Margaux Deuley|titre=Google utilise-t-il réellement 100% d'énergie verte pour alimenter ses services ?|url=https://www.liberation.fr/planete/2018/07/13/google-utilise-t-il-reellement-100-d-energie-verte-pour-alimenter-ses-services_1664177/|site=[[Libération (journal)|Libération]]|date=13 juillet 2018|consulté le=31 mars 2022}}.</ref>.
Certains moteurs ont également adopté une politique de [[neutralité carbone]], tels que Google, DuckDuckGo et [[Ecosia]]. Google affirme qu'il sera neutre en carbone d'ici 2030, en partie en achetant des [[Énergie renouvelable|énergies renouvelables]] et dès 2017, l'entreprise en rachète autant qu'elle en consomme mais il ne faut pas oublier que l’utilisation des énergies renouvelables produit souvent des [[gaz à effet de serre]]. Au début des années 2020 Google est le plus gros acheteur privé au monde de ce type d'énergie. Les énergies renouvelables étant essentiellement intermittentes, Google ne peut les utiliser directement ou de façon permanente : une entreprise qui se déclare neutre en carbone utilise dans les faits des « garanties d’origines renouvelables »(ce qui n’est pas forcément vrai car certaines entreprises achète des garanties d’origine renouvelables mais fournisse en réalité l’électricité du réseau) qui permettent de s'assurer que l'énergie carbonée qu'elle consomme sera compensée par une production équivalente d'énergie renouvelable. Or, selon l'association [[The Shift Project]], le modèle économique de Google nécessite toujours plus de puissance de calcul, de renouveler et d'augmenter son infrastructure, ses réseaux et ses équipements dont la production est une source importante de gaz à effet de serre. Pour l'[[association négaWatt]], la communication de Google se focalise sur l'usage mais éclipse les problèmes environnementaux liés à l'[[Mine (gisement)|extraction des ressources]], du transport et du recyclage<ref>{{lien web|auteur=Lucas Martin-Brodzicki|titre=Neutralité carbone : pourquoi Google reste malgré tout un danger pour le climat|url=https://www.humanite.fr/planete/google/neutralite-carbone-pourquoi-google-reste-malgre-tout-un-danger-pour-le-climat-697530|site=[[L'Humanité]]|date=15 décembre 2020|consulté le=31 mars 2022}}.</ref>{{,}}<ref>{{lien web|auteur=Margaux Deuley|titre=Google utilise-t-il réellement 100% d'énergie verte pour alimenter ses services ?|url=https://www.liberation.fr/planete/2018/07/13/google-utilise-t-il-reellement-100-d-energie-verte-pour-alimenter-ses-services_1664177/|site=[[Libération (journal)|Libération]]|date=13 juillet 2018|consulté le=31 mars 2022}}.</ref>.


Le moteur de recherche [[Ecosia]] utilise 80 % de ses revenus publicitaires pour des projets de [[reforestation]] aux quatre coins du monde<ref>[https://leshorizons.net/ecosia-une-start-up-qui-lutte-contre-la-deforestation/ Ecosia, une start-up qui lutte contre la déforestation]</ref>.
Le [[métamoteur]] de recherche [[Ecosia]] utilise 80 % de ses revenus publicitaires pour des projets de [[reforestation]] aux quatre coins du monde<ref>[https://leshorizons.net/ecosia-une-start-up-qui-lutte-contre-la-deforestation/ Ecosia, une start-up qui lutte contre la déforestation]</ref>.


== Moteurs verticaux ==
== Moteurs verticaux ==
Ligne 272 : Ligne 272 :
Selon une étude menée par MARKESS International en {{date-|février 2008}}, 49 % des organisations ont déjà recours à un moteur de recherche d'entreprise, et 18 % envisagent son utilisation d'ici à 2010. Ces moteurs de recherches sont en majeure partie intégrés aux postes de travail ou aux outils de [[gestion électronique des documents]], mais ils sont dans un nombre grandissant d'entreprises capables de couvrir à la fois les contenus internes et externes de l'entreprise, ou encore intégrés aux outils de gestion de contenu ou aux solutions décisionnelles.
Selon une étude menée par MARKESS International en {{date-|février 2008}}, 49 % des organisations ont déjà recours à un moteur de recherche d'entreprise, et 18 % envisagent son utilisation d'ici à 2010. Ces moteurs de recherches sont en majeure partie intégrés aux postes de travail ou aux outils de [[gestion électronique des documents]], mais ils sont dans un nombre grandissant d'entreprises capables de couvrir à la fois les contenus internes et externes de l'entreprise, ou encore intégrés aux outils de gestion de contenu ou aux solutions décisionnelles.


Parmi les acteurs proposant des moteurs de recherche d'entreprise figurent [[Google]], [[Exalead]], [[PolySpot]] ou [[Opensearchserver|OpenSearchServer]].
Parmi les acteurs proposant des moteurs de recherche d'entreprise figurent [[Google]], [[Exalead]], PolySpot ou [[Opensearchserver|OpenSearchServer]].


== Ressources pour les moteurs de recherche ==
== Ressources pour les moteurs de recherche ==
Ligne 278 : Ligne 278 :


== Impact environnemental ==
== Impact environnemental ==
Selon l'étude de l'[[ADEME]] « Internet, courriels, réduire les impacts » publiée en {{date-|février 2014}}, aller directement à l’adresse d’un site, soit en tapant son adresse dans son navigateur, soit en l’ayant enregistré comme « favori » (plutôt que de rechercher ce site via un moteur de recherche) divise par 4 les [[émissions de gaz à effet de serre]].
Selon l'étude de l'[[ADEME]] « Internet, courriels, réduire les impacts » publiée en {{date-|février 2014}}, aller directement à l’adresse d’un site, soit en tapant son adresse dans son navigateur, soit en l’ayant enregistré comme « favori » (plutôt que de rechercher ce site via un moteur de recherche) divise par 4 les [[émissions de gaz à effet de serre]], ce qui dépend en réalité du type de moteur de recherche, les recherches dans les moteurs comme [[Ecosia]] ayant une empreinte moyenne négative.


== Notes et références ==
== Notes et références ==

Version du 16 mai 2024 à 06:11

Capture d'écran d'une page de résultat de recherche
Capture d'écran d'une page de résultat de recherche

Un moteur de recherche est une application permettant à un utilisateur d'effectuer une recherche locale ou en ligne, c'est-à-dire de trouver des ressources à partir d'une requête composée de termes. Les ressources peuvent notamment être des pages web, des articles de forums Usenet, des images, des vidéos, des fichiers, des ouvrages, des sites, pédagogiques, des applications, des logiciels open source.

Sur le principe, ils fonctionnent généralement :

  • avec une indexation du contenu des sites internet dans une ou plusieurs base de données de l'exploitant du moteur de recherche, indexation effectuée préalablement à la recherche.
  • Ainsi, le moteur restitue, en fonction de ses paramètres (exemple : les différents algorithmes de recherche de Google) une liste de pages correspondant aux mots recherchés.

Certains sites web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors « moteur de recherche » le site lui-même. Ce sont des recherches sur le web sans intervention humaine, ce qui les distingue des annuaires. Ils sont basés sur des « robots », encore appelés « bots », « spiders «, « crawlers » ou « agents », qui parcourent automatiquement les sites à intervalles réguliers afin de découvrir de nouvelles adresses (URL). Ils suivent les liens hypertexte qui relient les pages les unes aux autres, les uns après les autres. Chaque page identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à partir de mots-clés.

C'est par abus de langage qu'on appelle également « moteurs de recherche » des sites web proposant des annuaires de sites web : dans ce cas, ce sont des instruments de recherche élaborés par des personnes qui répertorient et classifient des sites web jugés dignes d'intérêt, et non des robots d'indexation.

Les moteurs de recherche ne s'appliquent pas uniquement à Internet : certains moteurs sont des logiciels installés sur un ordinateur personnel. Ce sont des moteurs dits « de bureau » qui combinent la recherche parmi les fichiers stockés sur le PC et la recherche parmi les sites Web — on peut citer par exemple Copernic Desktop Search, Windex Server, etc.

On trouve également des métamoteurs, c'est-à-dire des sites web où une même recherche est lancée simultanément sur plusieurs moteurs de recherche, les résultats étant ensuite fusionnés pour être présentés à l'internaute.

Historique

Les moteurs de recherche Internet précèdent les débuts du Web fin 1990 :

Les moteurs de recherche sont inspirés des outils de recherche documentaire (à base de fichiers inversés, alias fichiers d'index) utilisés sur les mainframes depuis les années 1970, comme le logiciel STAIRS sur IBM. Le mode de remplissage de leurs bases de données est cependant différent, car orienté réseau. Par ailleurs la distinction entre données formatées (« champs ») et texte libre n'y existe plus, bien que commençant depuis 2010 à se réintroduire par le biais du web sémantique.

Des moteurs historiques ont été Yahoo! (1994), Lycos (1994), Altavista (1995, premier moteur 64 bits) et Backrub (1997), ancêtre de Google (1998).

Google apporte un changement important: il stocke dans ses serveurs les pages qu'il indexe, ce que ne faisaient pas alors les autres moteurs.

Pour répondre aux besoins des étudiants, des universitaires, chercheurs et ingénieurs, des moteurs spécialisés destinés aux sujets scientifiques et techniques sont apparus.

Fonctionnement

Représentation d'un petit morceau du web autour de Wikipedia.org.

Le fonctionnement d'un moteur de recherche comme tout instrument de recherche se décompose en trois processus principaux :

  1. L'exploration ou crawl : le web est systématiquement exploré par un robot d'indexation suivant récursivement tous les hyperliens qu'il trouve et récupérant les ressources jugées intéressantes. L'exploration est lancée depuis une ressource pivot, comme une page d'annuaire web. Un moteur de recherche est d'abord un outil d'indexation, c'est-à-dire qu'il dispose d'une technologie de collecte de documents à distance sur les sites Web, via un outil que l'on appelle robot ou bot. Un robot d'indexation dispose de sa propre signature (comme chaque navigateur web). Par exemple, Googlebot est le user agent (signature) du crawler de Google ; BingBot est celui de Bing ; AppleBot celui de Apple.
  2. L'indexation des ressources récupérées consiste à extraire les mots considérés comme significatifs du corpus à explorer. Les mots extraits sont enregistrés dans une base de données organisée comme un gigantesque dictionnaire inverse ou, plus exactement, comme l'index terminologique d'un ouvrage, qui permet de retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme significatif donné. Les termes non significatifs dans un contexte donné s'appellent des mots vides. Les termes significatifs sont associés à un poids. Celui-ci reflète à la fois la probabilité d'apparition du mot dans un document et le « pouvoir discriminant de ce mot » dans une langue, conformément au principe de la formule TF-IDF. L'indexation s'effectue après un ensemble de traitement syntaxiques et sémantiques (lemmatisation, catégorisation, suppression des mots « vide »…) et algorithmiques selon différentes techniques basées aujourd'hui sur l'intelligence artificielle (Word2Vec, LDA…).
  3. La recherche correspond à la partie requêtes du moteur, qui restitue les résultats. Un algorithme est appliqué pour identifier dans le corpus documentaire (en utilisant l'index), les documents qui correspondent le mieux aux mots contenus dans la requête, afin de présenter les résultats des recherches par ordre de pertinence supposée. Les algorithmes de recherche font l'objet de très nombreuses investigations scientifiques. Les moteurs de recherche les plus simples se contentent de requêtes booléennes pour comparer les mots d'une requête avec ceux des documents. Mais cette méthode atteint vite ses limites sur des corpus volumineux. Les moteurs plus évolués sont basés sur le paradigme du modèle vectoriel : ils utilisent la formule TF-IDF pour mettre en relation le poids des mots dans une requête avec ceux contenus dans les documents. Cette formule est utilisée pour construire des vecteurs de mots, comparés dans un espace vectoriel, par une similarité cosinus. Pour améliorer encore les performances d'un moteur, il existe de nombreuses techniques, la plus connue étant celle du PageRank de Google qui permet de pondérer une mesure de cosinus en utilisant un indice de notoriété de pages. Les recherches les plus récentes utilisent la méthode dites d'analyse sémantique latente qui tente d'introduire l'idée de cooccurrences dans la recherche de résultats (le terme « voiture » est automatiquement associé à ses mots proches tels que « garage » ou un nom de marque dans le critère de recherche).
De même, un article sur la « récolte » du « blé » en « France » sera jugé pertinent comme candidat à la réponse sur une question concernant la « culture » des « céréales » en « Europe ».

Des modules complémentaires sont souvent utilisés en association avec les trois briques de bases du moteur de recherche. Les plus connus sont les suivants :

Le correcteur orthographique : Le lemmatiseur : L'anti-dictionnaire :
Il permet de corriger les erreurs introduites dans les mots de la requête en s'assurant de leur pertinence par la prise en compte de leur forme canonique. Il permet de réduire les mots recherchés à leur lemme pour ainsi étendre leur portée de recherche.


Il supprime tous les mots « vides » (tels que « de », « le », « la ») qui sont non-discriminants, et qui perturbent le score de recherche en introduisant du bruit. La suppression se fait dans l'index et dans les requêtes.


Optimisation pour les moteurs de recherche

Afin d'optimiser les moteurs de recherche, les webmestres insèrent des métaéléments (métatags) dans les pages web, dans l'en-tête HTML (head). Ces informations permettent d'optimiser les recherches d'information sur les sites web.

Financement

Les sites dont la recherche est le principal service se financent par la vente de technologie et de publicité.

Le financement par la publicité consiste à présenter des publicités correspondant aux mots recherchés par le visiteur. L'annonceur achète des mots-clés : par exemple une agence de voyages peut acheter des mots-clés comme « vacances », « hôtel » et « plage » ou « Cannes », « Antibes » et « Nice » si elle est spécialisée dans cette région. Cet achat permet d'obtenir un référencement dit « référencement payant » à distinguer du référencement dit « référencement naturel ».

Le moteur de recherche peut afficher la publicité de deux manières : en encart séparé ou en l'intégrant aux résultats de la recherche. Pour le visiteur, l'encart séparé se présente comme une publicité classique. L'intégration aux résultats se fait en revanche au détriment de la pertinence des résultats et peut avoir des retombées négatives sur la qualité perçue du moteur. De ce fait, tous les moteurs ne vendent pas de placement dans les résultats.

Les moteurs de recherche constituent un enjeu économique. La valeur boursière du holding Alphabet propriétaire de Google, principal moteur de recherche, était de 831 milliards USD en avril 2020[1].

Techniques de détournement

L'importance des enjeux économiques a généré des techniques de détournement malhonnêtes des moteurs de recherche pour obtenir des référencements « naturels », le spamdexing (référencement abusif en français).

Les techniques les plus pratiquées de spamdexing sont :

  • Le cloaking, qui est une technique permettant de fournir une page différente aux moteurs de recherche de celle visible par un internaute.
  • Les sites miroirs, qui sont des copies exactes d'un site internet, mais sous une autre adresse.
  • Le zurnisme, qui est la création d'un néologisme pour obtenir une exclusivité de référencement. Le mot zurnisme est lui-même un zurnisme, qui a été créé en 2007 par un blog français.

Les techniques de référencement abusif sont pourchassées par les éditeurs de moteurs de recherches, qui constituent des listes noires, provisoires ou définitives.

On distingue le spamdexing, détournement malhonnête, du « SEO », Search Engine Optimization (optimisation pour les moteurs de recherche en français). Les techniques de SEO sont commercialisées par des sociétés spécialisées.

Vente de technologie

Les grandes organisations (entreprises, administrations) disposent généralement de très nombreuses ressources informatiques dans un vaste intranet. Leurs ressources n'étant pas accessibles depuis Internet, elles ne sont pas couvertes par les moteurs de recherche du web. Elles doivent donc installer leur propre moteur si elles veulent mener des recherches dans leurs ressources. Elles constituent donc un marché pour les développeurs de moteurs de recherche. On parle alors de moteur de recherche pour entreprise (voir plus bas).

Il arrive également que des sites web publics utilisent les services d'un moteur de recherche pour étoffer leur offre. On parle alors de « SiteSearch ». Ces logiciels permettent la recherche de contenus dans un ou plusieurs groupes de sites. Ces technologies sont particulièrement exploitées sur les sites de contenus et les sites de vente en ligne. La particularité de ces outils est souvent la complexité de mise en œuvre et les ressources techniques nécessaires disponibles.

Il arrive aussi que les grands portails exploitent la technologie des moteurs de recherche. Ainsi Yahoo!, spécialiste de l'annuaire web, a utilisé pendant quelques années la technologie de Google pour la recherche jusqu'à ce qu'elle lance son propre moteur de recherche Yahoo Search Technology en 2004 dont les fondations proviennent de Altavista, Inktomi et Overture, sociétés fondatrices des moteurs de recherche et rachetées par Yahoo!.

Évolution vers le web sémantique

De plus en plus de producteurs de contenu, à la suite des recommandations du W3C sur le web sémantique, indexent leurs bases avec des métadonnées ou des taxinomies (ontologies), en vue de permettre aux moteurs de recherche de s'adapter aux analyses sémantiques.

Ces formes de recherches et d'analyses de corpus d'informations par voie informatique ne sont encore que des potentialités.

Par comparaison avec des recherches plein texte, des recherches réalisées sur le web sémantique doivent être plus conviviales pour l'utilisateur :

  • L'utilisateur d'un système sémantique doit pouvoir directement poser sa question en langue naturelle.
  • Le moteur de recherche sémantique fournit la réponse précise à une question plutôt qu'une liste de pages y répondant.

Il n'existe pas encore à proprement parler de moteur de recherche sémantique qui permette de comprendre une question en langue naturelle et d'adapter une réponse en fonction des résultats trouvés.

Quelques tentatives existent néanmoins pour chercher à répondre par des formes intermédiaires à cette problématique du sens dans la recherche d'information :

  • Powerset racheté par Microsoft et partiellement intégré à Bing ;
  • KartOO, de la société Kartoo, qui affichait des graphes sémantiques dans le cadre de ses cartes de recherche (fermé en 2010) ;
  • WolframAlpha, moteur de recherche qui répond aux questions en langue naturelle à partir d'une base de données.
  • Yatedo, moteur de recherche de personnes utilise la sémantique afin d'extraire les informations relatives à une personne sur une page Web.

Évolution vers le moteur et annuaire

Les recherches d'adresses sur internet

L'abandon progressif des annuaires imprimés conduit les usagers à effectuer les mêmes recherches sur l'internet « profession+localité ». Google a donc acquis en 2010 un fichier d'entreprises (pour la France et un certain nombre de pays), pour effectuer un mixage des données web et annuaire lorsque les requêtes correspondent a une activité localisée. Cette nouvelle tendance se vérifie chez les principaux moteurs de recherche et de nouveaux « outils mixte » voient le jour. Yandex et Baidu n'ont pas encore adopté ce modèle de mixage.

Selon une étude réalisée par McKinsey&Co[2], seulement 65 % des PME françaises disposaient d'une présence sur Internet en 2013. Selon une autre étude[réf. nécessaire], cette proportion atteint 72 % pour les professions libérales (avocats, dentistes, médecins, notaires, huissiers, infirmières...).

Les moteurs de recherche qui par définition collectent uniquement des données issues de l'internet, ont donc été obligés d'acquérir et de proposer ces adresses d'annuaire en complément pour satisfaire la recherche d'adresses des internautes. Google a baptisé ces adresses « Google Adresses », puis d'office basculées vers « Google + », actuellement « Google My Business ». Les moteurs de recherche Bing et Google ne communiquent pas l'origine de ces fichiers d'entreprises intégrés, hormis Yahoo! qui est en partenariat avec Pages Jaunes.

Part de marché hors Asie[pourquoi ?]

Part de marché mise à jour début 2022[3].
Moteur Logo France Allemagne Canada États-Unis Mexique Brésil Maroc
Google
90,14 % 94,54 % 92,38 % 84,8 % 94,9 % 97,35 % 97,31 %
Bing
5,25 % 2,89 % 4,31 % 5,59 % 3,36 % 1,32 % 1,79 %
Yahoo!
1,32 % 0,84 % 2,33 % 8,35 % 1,51 % 1,18 % 0,71 %
Qwant
1,07 %
DuckDuckGo
0,59 % 0,67 % 0,73 % 1,01 % 0,09 % 0,01 % 0,08 %
MSN
0,1 % 0,08 % 0,1 % 0,02 %
Yandex
0,03 %

Méta-moteurs

Les métamoteurs sont des outils de recherche qui interrogent plusieurs moteurs de recherche simultanément et affichent à l'internaute une synthèse pertinente.

Exemples : Startpage, Searx, Seeks, Lilo, Framabee, Kagi...

Multi-moteurs

On désigne par « multi-moteurs (en) » (ou plus rarement, « super moteur »[4]) une page web proposant un ou plusieurs formulaires permettant d'interroger plusieurs moteurs. Il peut également (mais plus rarement) s'agir d'un logiciel, d'une fonction ou d'une extension de navigateur web, ou d'une barre d'outils

Le choix d'un des moteurs peut se faire par bouton, bouton radio, onglet, liste déroulante ou autre.

Les premières pages de ce type recopiaient le code des formulaires de plusieurs moteurs. Avec l'apparition du JavaScript il est devenu possible de n'avoir plus qu'un seul formulaire.
On peut citer par exemple Creative Commons Search[5], Ecosia, Disconnect, le moteur de recherche de Maxthon, HooSeek (fermé en 2012), searchall.net, etc.

Moteurs ou métamoteurs destinés à la littérature scientifique et technique

Le moteur de recherche le plus connu et le plus utilisé concernant la littérature scientifique et technique est Google Scholar, dont l'algorithme indexe un grand nombre de bases de données et de métadonnées structurées de littérature scientifique et technique et de brevets, mais il existe d'autres moteurs, plus ou moins spécialisés :

Les grands moteurs de recherche du domaine scientifique (en 2022)
Nom Descriptif
Base (Bielefeld Academic Search Engine) Spécialisé dans l’échange d’archives numériques[6], il explore plus de 300 millions de documents d'intérêt scientifique, issus de plus de 10 000 ressources libres (en 2022) et exploitant l'Open Archives Initiative (OAI).
OAIster (moteur du WorldCat Discovery) fouille les corpus d'images de plus de 500 entités académiques : articles de journaux, textes, livres, vidéos, sons open-sources et d'intérêt académique, avec environ 25 millions de notices en 2022 ; plutôt orienté Biologie, médecine et chimie
BioTechSearchEngine fouille les contenus d'environ 300 revues en libre accès
BioMed Central fouille les contenus en libre accès de 200 revues des domaines de la médecine et la biologie et en médecine
PubChem destiné à la chimie
CiteSeerX bibliothèque numérique et moteur de recherche, destiné aux sciences de l’information et à l'informatique
TechXtra explore des articles, ouvrage, journaux, rapports techniques, thèses, mémoires et « ressources éducatives libres » (OER)
WorldWideScience destiné aux brevets et aux contenus issus de sociétés savantes du monde entier
Moteur de l’INIST information scientifique et technique
Science.gouv Portail gouvernemental français (disparu)
NARCIS co-élaboré et géré par l'Académie royale néerlandaise des arts et des sciences et le Canada Institute for Scientific and Technical Information
Journal@rchive (japonais) Archives de journaux et revues scientifiques japonaises.
Isidore conçu par le CNRS pour les étudiants, doctorants, enseignants et chercheurs en sciences humaines et sociales. Il explore 3 millions de documents dans plus de 2 000 sources (en 2022), dont notamment du SUDOC, de la BnF, de la bibliothèque du Congrès, et de l'Institut de recherche et d'histoire des textes
Jurn destiné aux arts et aux sciences humaines et sociales (SHS), avec un accès à plus de 1 000 revues électroniques en libre accès

Moteurs de recherche solidaires ou écologiques

On désigne par « moteur de recherche solidaire », un moteur qui reverse une partie de ses revenus à des causes écologiques, sociales ou humanitaires. Ces moteurs sont nés du constat que les revenus annuels générés par la publicité sur les moteurs de recherche sont assez importants (environ 45 $ par an par utilisateur pour Google en 2014[7]). Les moteurs de recherches solidaires se distinguent notamment dans la façon de distribuer les revenus générés. Certains moteurs comme Ecosia reversent alors une partie des revenus à une seule et unique cause, alors que des moteurs comme Lilo et YouCare permettent aux internautes de choisir les projets à financer.

Certains moteurs ont également adopté une politique de neutralité carbone, tels que Google, DuckDuckGo et Ecosia. Google affirme qu'il sera neutre en carbone d'ici 2030, en partie en achetant des énergies renouvelables et dès 2017, l'entreprise en rachète autant qu'elle en consomme mais il ne faut pas oublier que l’utilisation des énergies renouvelables produit souvent des gaz à effet de serre. Au début des années 2020 Google est le plus gros acheteur privé au monde de ce type d'énergie. Les énergies renouvelables étant essentiellement intermittentes, Google ne peut les utiliser directement ou de façon permanente : une entreprise qui se déclare neutre en carbone utilise dans les faits des « garanties d’origines renouvelables »(ce qui n’est pas forcément vrai car certaines entreprises achète des garanties d’origine renouvelables mais fournisse en réalité l’électricité du réseau) qui permettent de s'assurer que l'énergie carbonée qu'elle consomme sera compensée par une production équivalente d'énergie renouvelable. Or, selon l'association The Shift Project, le modèle économique de Google nécessite toujours plus de puissance de calcul, de renouveler et d'augmenter son infrastructure, ses réseaux et ses équipements dont la production est une source importante de gaz à effet de serre. Pour l'association négaWatt, la communication de Google se focalise sur l'usage mais éclipse les problèmes environnementaux liés à l'extraction des ressources, du transport et du recyclage[8],[9].

Le métamoteur de recherche Ecosia utilise 80 % de ses revenus publicitaires pour des projets de reforestation aux quatre coins du monde[10].

Moteurs verticaux

On désigne par « moteurs verticaux » une page web ou un service multimédia qui propose une recherche spécialisée dans un domaine professionnel ou qui est particulièrement ciblé. Cet outil de recherche est spécialisé dans un secteur particulier, tel que les télécommunications, le droit, la biotechnologie, la finance (assurance) ou encore l'immobilier. Son fonctionnement général est basé sur une bases de données constituée à partir des bases de tous les sites spécialisés de l'activité ciblée.

Ce type de moteur est utilisé par les professionnels et ciblé sur le consommateur, avec le plus souvent une finalité économique qui dérive sur la géolocalisation.

On retrouve ainsi pour le grand public des annuaires, des comparateurs. Il en existe maintenant pour toutes les activités : immobilier, tourisme, recherche d'emploi, recrutement, automobile, loisirs, jeux.

Moteur de recherche d'entreprise

L'explosion du nombre de contenus de formats divers (données, informations non structurées, images, vidéos…) disponibles dans les entreprises les poussent à s'équiper de moteur de recherche en interne.

Selon une étude menée par MARKESS International en , 49 % des organisations ont déjà recours à un moteur de recherche d'entreprise, et 18 % envisagent son utilisation d'ici à 2010. Ces moteurs de recherches sont en majeure partie intégrés aux postes de travail ou aux outils de gestion électronique des documents, mais ils sont dans un nombre grandissant d'entreprises capables de couvrir à la fois les contenus internes et externes de l'entreprise, ou encore intégrés aux outils de gestion de contenu ou aux solutions décisionnelles.

Parmi les acteurs proposant des moteurs de recherche d'entreprise figurent Google, Exalead, PolySpot ou OpenSearchServer.

Ressources pour les moteurs de recherche

Les technologies d'analyse du langage, telles que la lemmatisation, l'extraction d'entités nommées, la classification et le clustering permettent d'améliorer grandement le fonctionnement des moteurs de recherche. Ces technologies permettent tout à la fois d'améliorer la pertinence des résultats et d'engager l'internaute dans un processus de recherche plus performant, comme c'est le cas avec la recherche à facettes [précision nécessaire].

Impact environnemental

Selon l'étude de l'ADEME « Internet, courriels, réduire les impacts » publiée en , aller directement à l’adresse d’un site, soit en tapant son adresse dans son navigateur, soit en l’ayant enregistré comme « favori » (plutôt que de rechercher ce site via un moteur de recherche) divise par 4 les émissions de gaz à effet de serre, ce qui dépend en réalité du type de moteur de recherche, les recherches dans les moteurs comme Ecosia ayant une empreinte moyenne négative.

Notes et références

  1. Zone Bourse, « ALPHABET INC. : Données Financières Prévisions Estimations et Attentes | GOOGL | Zone bourse », sur www.zonebourse.com (consulté le )
  2. « Accélérer la mutation numérique des entreprises : un gisement de croissance et de compétitivité pour la France », sur McKinsey & Company (consulté le )
  3. Influence, « Les parts de marché 2022 des moteurs de recherche en France et dans le Monde », sur leptidigital.fr, (consulté le ).
  4. vu.fr/search et se désignent comme des supermoteurs et Supermoteur était le nom d'un multi-moteur
  5. Creative Commons Search
  6. « BASE - Bielefeld Academic Search Engine », sur base-search.net (consulté le ).
  7. « How much are you worth? Average revenue per user at Google, Facebook and Twitter », sur digitalstrategyconsulting.com via Wikiwix (consulté le ).
  8. Lucas Martin-Brodzicki, « Neutralité carbone : pourquoi Google reste malgré tout un danger pour le climat », sur L'Humanité, (consulté le ).
  9. Margaux Deuley, « Google utilise-t-il réellement 100% d'énergie verte pour alimenter ses services ? », sur Libération, (consulté le ).
  10. Ecosia, une start-up qui lutte contre la déforestation

Voir aussi

Sur les autres projets Wikimedia :

Articles connexes

Il existe une catégorie consacrée à ce sujet : Moteur de recherche.

Outils

Théorie

Automatisation

Bibliographie