Vous êtes sur la page 1sur 22

Mickal MARCHAL Nadia TEA Promo 2007

Les moteurs de recherche


Comment indexent-ils linformation, et comment la restituent-ils ?

Les moteurs de recherche

Mickal Marchal Nadia Tea

Sommaire
I. Introduction........................................................................................................................... 3 II. Principe des services de recherche..................................................................................... 4 II.1 Petit historique de la recherche sur Internet .................................................................... 4 II.2 Les enjeux daujourdhui et de demain ........................................................................... 5 II.3 Les familles doutils de recherche ................................................................................... 6
II.3.1 LAnnuaire........................................................................................................................................... 6 II.3.2 Le moteur de recherche (Search engine).............................................................................................. 6 II.3.3 Le Mtamoteur..................................................................................................................................... 7

III. Lindexation des pages ...................................................................................................... 8 III.1 La soumission directe d'une page Internet ..................................................................... 8 III.2 LInsertion automatique des pages................................................................................. 8 III.3 Le principe du Crawler................................................................................................... 9 III.4 Lanalyse dun site ......................................................................................................... 9
III.4.1 Extraction des mtadonnes ............................................................................................................... 9 III.4.2 Les mtadonnes ne suffisent pas !................................................................................................... 10 III.4.3 Lanalyse structurelle globale........................................................................................................... 10 III.4.4 Lanalyse smantique ....................................................................................................................... 11 III.4.5 La pondration des mots cls............................................................................................................ 13 III.4.6 Les limites de lindexation................................................................................................................ 13

III.5 Cas particulier : Google et le PageRank....................................................................... 14 IV. Traitement des requtes .................................................................................................. 15 IV.1 Langage naturel ou mots cls ? .................................................................................... 15 IV.2 Principales diffrences entre moteurs .......................................................................... 16 IV.3 Mots cls ...................................................................................................................... 18 IV.4 Rsultats trouvs en fonction des requtes lances...................................................... 19
IV.4.1 Recherches avances ........................................................................................................................ 19 IV.4.2 Ordre des rsultats lors du rendu des rponses ................................................................................. 19

V. Conclusion.......................................................................................................................... 20 VI. Annexes ............................................................................................................................. 21 VI.1 Quelques Chiffres ........................................................................................................ 21 IV.2 Bibliographie / Webographie ....................................................................................... 22

Page 2 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

I. Prambule
"Internet est comme l'union de toutes les bibliothques du monde entier, o malheureusement, quelqu'un s'est amus renverser tous les livres exposs sur les tagres" Notre monde tend s'informatiser de plus en plus notamment par l'entremise d'Internet. En effet, ce dernier s'est insmin dans notre quotidien et dans notre vie professionnelle. Ds que l'on se pose une question surfer sur la toile nous permet d'obtenir de promptes rponses bien qu'il existe des milliards de sites. Grce des outils rapides et simples d'utilisation que sont les moteurs de recherche, nous sommes mme de trouver ce que nous cherchons au travers d'un petit champ de texte, comme l'itinraire pour se rendre notre lieu de vacances ou un rendez-vous d'affaires, pour appeler le plombier, trouver un tutoriel. Internet nous offre une multitude de possibilits et les moteurs de recherche nous permettent d'y accder plus facilement. Mais que se cache-t-il derrire cette interface sobre, cet outil devenu indispensable? Il s'agit certainement l d'une question que seuls peu de gens se posent et qui pourtant parait trs intressante. Quels sont leurs principes ? Comment sont indexes toutes ces pages Internet ? Comment les moteurs de recherche interprtent-ils nos requtes? Comment les moteurs obtiennent les rsultats en fonction des demandes? Lobjectif de ce mmoire est doffrir un aperu des diffrentes techniques utilises ou pouvant tre utilises par les moteurs de recherche pour indexer les pages, et les outils mis disposition de linternaute pour saisir ses requtes. Nous tenterons de rpondre cette problmatique par une approche dingnieurs : comprendre aussi bien les aspects business que scientifiques, car nous sommes conscients que les enjeux de la recherche sur le net dpassent largement le cadre de la thorie scientifique.

Page 3 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

II. Principe des services de recherche


II.1 Petit historique de la recherche sur Internet
Le premier moteur de recherche apparait en 1990, cre par Adam Emtage, tudiant Mc Gill (Qubec). Ce moteur, dnomm Archie, comportait les principes de base du moteur de recherche : on remplissait une base de donnes, que le moteur faisait correspondre aux requtes des utilisateurs. Le Web de lpoque comportait seulement quelques centaines de sites, et Archie resta un projet universitaire. Mais le saut technologique le plus important fut introduit par Wanderer ( le Vagabond ) en 1993 par Matthew Gray. Il fut le premier moteur dployer des robots dindexation (spiders). Lide de base, qui tait de mesurer la croissance du Web, fut rapidement remanie pour arriver au premier moteur de recherche indexation automatique (Bot search) Ce moteur a dailleurs caus un certain nombre de problmes, car il retournait plusieurs centaines de fois par jour sur certains sites et les ralentissait. En octobre 2003, le successeur dArchie fait son apparition : Aliweb (Archie-like indexing the web). Ce moteur repose sur la soumission manuelle de sites. Le moteur se basait sur les mots cls et les descriptions fournies au moment de linscription pour effectuer la recherche. Le premier moteur intelligent fut Excite (1993). Construit par six tudiants de Stanford, il se base sur lanalyse statistique des mots. Enfin, en 1994, cest la naissance de Yahoo, le premier grand service de recherche, cre galement par des tudiants de Stanford. Mais la diffrence des outils de lpoque, Yahoo se base sur un annuaire, pas sur un moteur de recherche. Les rsultats sont slectionns et indexs par lhomme. En quelques mois, Yahoo devient le plus important portail du Web. Les annes 1995-1997 voient lapparition des grands moteurs de recherche (Excite, Hotbot, Lycos). Altavista, cre par un franais et jug efficace et rapide, deviendra la star des moteurs de recherche du moment jusquaux annes 2000, dtrn par Google. De son cot, Inktomi dveloppe la premire activit de recherche destine aux entreprises. Cest la premire fois que les moteurs de recherche ciblent les professionnels. Enfin, cest en 1998 que nat Google, cre par Sergei Brin et Larry Page, encore une fois tudiants de Stanford. Google va littralement rvolutionner le monde de moteurs de recherche grce sa simplicit et son efficacit. Linterface dpouille se charge instantanment sur les connexions bas-dbit de lpoque, et la technologie dindexation est indite : Google se base sur le nombre de liens pointant sur une page pour en dterminer sa pertinence. Vers 2001-2002, lclatement de la bulle internet fait disparaitre les premiers moteurs de recherche, et seuls les plus grands survivent. Cest lre moderne de la recherche internet.

Page 4 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

II.2 Les enjeux daujourdhui et de demain


Selon le cabinet dtudes Nielsen Netratings, environ 70% des visites dun site web proviennent dun moteur ou service de recherche, le reste provient de bonnes adresses donnes par un proche, ou de la publicit. Quand on sait que la Toile est devenue le vecteur principal des changes commerciaux entre entreprises (B to B), et un canal majeur dans la vente et les services aux particuliers (B to C), on comprend mieux lenjeu considrable de la recherche dinformations sur le net. Toujours selon Nielsen Netratings, 1,2 milliards de recherches ont t effectues par les amricains au mois de Mai 2004. Ce chiffre constitue une augmentation de 30% par rapport l'anne prcdente. Lessentiel des recherches est effectu sur une petite dizaine de moteurs. Nombre dentre eux sont hautement symboliques et sont dtenus par des multinationales parmi les plus importantes du monde : Microsoft, Google, AOL TimeWarner Ces socits se livrent une guerre sans merci pour gagner quelques parts de march sur leurs concurrents. Pendant longtemps, le cheval de bataille principal tait le nombre de sites rfrencs. Ainsi, les gants de la recherche ont men une vritable course lindexation , rcoltant des dizaines de millions de sites par mois. Mais depuis lclatement de la bulle internet en 2002-2003, le concept du plus gros sest vanoui face au concept du plus large . Dornavant, les moteurs de recherche se diversifient et permettent de trouver des images, du son, des vidos, des livres, et ainsi de suite. Il est maintenant possible dlargir le champ dune recherche de nombreux supports ou mdias. Aujourdhui Google possde une avance confortable sur ses concurrents grce tous ses services annexes : Google Images, Google Groups, Google Books, Google Suggest, Froogle, etc. Il possde aujourdhui 40 80% des parts de march selon les pays. Mais le nouveau virage entam par les moteurs de recherche pourrait bien renverser la tendance. Qui ne sest jamais senti perdu devant les milliers, parfois les millions de rponses trouves pour une simple requte ? Lindexation tout prix permet une rponse exhaustive mais bien souvent inexploitable. Les internautes expriments lont bien compris et ciblent dornavant mieux leurs requtes. Ainsi, selon Onestat, les requtes complexes (de 4 mots et plus) deviennent de plus en plus frquentes, alors que les requtes simples (1 ou 2 mots) diminuent fortement. Le moteur de recherche, initialement dfini comme un outil simple et universel daccder linformation sur le net perd peu peu en efficacit et en prcision. Voil lenjeu pour les prochaines annes : les moteurs de recherche devront se diffrencier par le concept du plus efficace . Le moteur devra rpondre de la faon la plus prcise possible aux attentes les plus simples de linternaute. Cela passe par deux approches : Indexer plus prcisment, mieux cibler le contenu de la page et mieux dterminer sa pertinence, Fournir lutilisateur des moyens de questionner le moteur plus prcisment et plus intuitivement.

Ces deux points font largement appel aux concepts drivs de lIntelligence Artificielle, et en particulier linguistique et la reconnaissance des formes.
Page 5 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

II.3 Les familles doutils de recherche


Bien que les diffrents moteurs de recherche arborent une interface d'utilisation simple, ils possdent une puissance impressionnante. En effet, des milliers de pages Internet sont cres chaque jour et doivent tre rpertories pour tre rfrences. De plus, 70% des visites de sites proviennent des moteurs de recherche. C'est pourquoi tous ces sites nouvellement crs cherchent un bon rfrencement auprs de nos outils de recherche prfrs tels que Google, Yahoo, Alta Vista. des billions de pages sont alors stocker. Seulement pour parvenir les faire correspondre aux demandes de l'utilisateur, il est ncessaire de leur associer certaines critres afin de les retrouver facilement. Pour cette raison, les moteurs de recherche utilisent des bases de donnes considrables, et pour faire face aux millions de requtes envoyes chaque minute, ils doivent imprativement possder une bande passante immense. Pour grer tous ces lments; les diffrents moteurs de recherche amnagent, rpertorient, classent, recherchent tous ces sites Internet diffrents. Aussi on peut distinguer trois types de moteur de recherche : l'annuaire, le moteur de recherche proprement dit ou search engine et enfin le mtamoteur.

II.3.1 LAnnuaire
L'annuaire (ou directory) est en fait une liste de liens subdiviss en catgories suivant une structure en arbre, accompagne d'une brve description. Bien que ce procd ft pionnier en la matire, il tend disparatre. En effet, le fait de devoir slectionner les catgories dans lequel on recherche suppose que l'on sache exactement o chercher. Et on peut se demander o se positionne le site qui appartient plusieurs catgories. Mais cette question, les moteurs utilisant ce procd vous rpliqueront qu'ils se trouvent dans toutes celles susceptibles de correspondre. Nanmoins, on doit lui reconnatre un gros avantage, celui de mettre en quelque sorte dans le contexte, ainsi les recherches dans la base de donnes sont diminues, en plus d'obtenir des rsultats plus pertinents. Quelques annuaires : Yahoo, Voil,

II.3.2 Le moteur de recherche (Search engine)


Le plupart des moteurs prfrent dsormais chercher directement les rsultats dans la base de donnes grce des requtes spcifiques bases sur les critres entrs. Cest le type de service le plus utilis actuellement, et cest celui que nous dtaillerons dans les prochains chapitres. Quelques moteurs de recherche : Google, MSN Search, Lycos, Altavista, Excite

Page 6 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

II.3.3 Le Mtamoteur
Certains moteurs ont opt pour une solution plus conomique, puisqu'ils utilisent les bases de donnes des autres moteurs. Ainsi les mtamoteurs rassemblent plusieurs moteurs de recherche. L'un des avantages vidents de ce procd pourrait tre d'obtenir des rsultats plus pertinents, puisque la recherche s'tend sur un plus grand nombre de sites indexs, sites figurant sur tel moteur, mais pas sur un autre. Nanmoins, la redondance de sites affichs peut-tre un inconvnient gnant. De mme que l'augmentation considrable de rsultat qui peut engendrer un dlai d'attente suprieur. De plus, le fait d'envoyer diffrentes requtes diffrents serveurs rallonge galement le temps de rponse. Quelques mtamoteurs : Infospace, Askjeeves, MyWay, Websearch.com

Cest ici que sachve notre tout dhorizon des services de recherche sur le Web. Nous allons maintenant tudier plus en dtail les moteurs de recherche eux-mmes, dun point de vue plus technique et plus fonctionnel.

Page 7 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

III. Lindexation des pages


Sans sa base de donnes de 11 milliards de pages, Google ne serait rien. Cest cette constatation qui dmontre la criticit de lindexation des pages web par un moteur de recherche. Avant de pouvoir lancer des requtes sur le serveur, il est indispensable de remplir la base de donnes, puis de la mettre quotidiennement jour. Pour cela, il existe plusieurs moyens. Le plus simple est dacheter une base de donnes un autre moteur de recherche, comme la fait AOL en 2002, qui a achet la base de donnes de Google pour plusieurs millions de dollars. Mais cette pratique reste marginale, car la plupart des moteurs constituent-eux mme leur base de donnes. Seulement avant d'insrer effectivement une page, il est ncessaire de vrifier sa provenance pour viter les faux sites (ou spams). A cet effet, des crawlers ou logiciels quivalents ont t crs : ils contrlent si les domaines recenss dans la base de donnes existent rellement. Et il est indispensable d'extraire les paramtres tels que les mots cls du site qui vont permettre de le retrouver selon les requtes effectues. Seulement, arriver dterminer la pertinence des critres est un acte difficile programmer. Pour cette raison, la part humaine est un lment indispensable. De ces faits, l'indexation de site Internet ne se rsume pas une simple insertion dans la base de donnes. il existe deux procds : soumettre une page directement un moteur de recherche ou attendre qu'un logiciel d'un moteur dtecte cette page et le rpertorie dans sa base de donnes.

III.1 La soumission directe d'une page Internet


Sur la plupart des moteurs de recherche, il est possible de soumettre son site, en indiquant son adresse au moteur. Certains moteurs demandent cette occasion une participation financire au soumetteur, trouvant ainsi une source de revenu. De plus, vu que l'indexation du site est payante, la proportion de faux sites ou spams devient quasi-inexistante. Le soumetteur pour sa part gagne l'avantage d'un ajout assur dans la base de donnes. D'autres moteurs doivent examiner plus attentivement les soumissions. Certains moteurs comme Yahoo prfrent analyser les candidatures et le reste du procd manuellement. Cela a des avantages vidents : la certitude de l'insertion de sites de qualit; ainsi que la bonne adquation des paramtres par rapport au site propos et donc des rponses aux requtes plus pertinentes. Cependant cette solution ncessite une grande main d'uvre, un dlai d'attente de plusieurs semaines et 70% des sites proposs sont refuss dans le cas de Yahoo. Certains programmes tels que Directory engine permettent de cataloguer automatiquement une page internet en dveloppant une architecture structure par argument permettant une intervention humaine minimum.

III.2 LInsertion automatique des pages


Certains moteurs comme Google prfrent ou compltent l'indexation des nouvelles pages par des algorithmes mathmatiques plus complexes, mais moins coteuse en main d'oeuvre et

Page 8 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

plus courte en dure. Pour cela, ces moteurs utilisent des programmes automatiss appels Spiders, Crawlers, Bots ou encore Robots (lquivalent franais, peu utilis, est robot dindexation ). Ces spiders parcourent sans interruption les pages dj indexes, naviguant de lien en lien la recherche de nouveaux liens et en recense les pages. Ensuite des logiciels tel que ICE (Intelligence Concept Extraction) permettent d'tablir les rapports entre les termes que les spiders ou crawlers ont trouv dterminants dans ces pages, les mots cls et les autres paramtres.

III.3 Le principe du Crawler


Le crawler est un logiciel danalyse structurelle, syntaxique et smantique de page Web (parser en anglais). Pour chaque page, il extrait les lments jugs significatifs et pertinents, afin de se constituer une base de mots-cls relatifs la page analyse. Lorsque le spider dtecte des liens vers dautres pages, il les garde en mmoire dans une base de donnes contenant des adresses restant analyser. Une fois la page analyse, le spider regarde dans sa base de donnes la prochaine page visiter, et ainsi de suite. Un crawler est donc capable de voyager de lien en lien, de page et page, et donc de site en site sans aucune intervention humaine. Il utilise le concept de lhyperlien, fondement mme du Web. Mais le robot nagit pas pour autant laveuglette. Lorsquil arrive sur une page, il dtermine tout dabord sil connait la page, autrement dit si il la dj index. Si cest le cas, il fera un passage plus rapide, se contentant de relever les modifications effectues depuis sa dernire visite. Le robot doit aussi dterminer sil est autoris ou non indexer la page. Cela se fait au moyen de directives standards mises au point par Google, et contenues dans un fichier intitul robots.txt . Ce fichier permet de limiter ou modifier la faon dont les moteurs de recherche rfrencent un site. Il est ainsi possible de prserver les fichiers sensibles de la divulgation. Les statistiques concernant les robots sont jalousement tenues secrtes. Mais selon toute vraisemblance, les spiders les plus puissants sont capables danalyser des centaines de milliers de pages par jour.

III.4 Lanalyse dun site


Cest ltape la plus complexe, et par consquent, cest celle dont les secrets sont le mieux gards. Lanalyse dun site diffre dun moteur lautre, mais les grandes lignes de ce processus sont connues et communes tous les moteurs de recherche.

III.4.1 Extraction des mtadonnes


La premire tape consiste extraire les mtadonnes du fichier analys. Ces mtadonnes sont des informations renseignant sur la nature du document. Ainsi, il sagit souvent : De lextension du fichier

Page 9 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

De la date de cration et de dernire modification De la taille du fichier Du nom de fichier et de ladresse URL laquelle il se trouve

Les autres mtadonnes dpendent du type de fichier. Pour une image, il sagira des dimensions de celle-ci, pour une vido, de sa longueur, pour un fichier MP3 on cherchera a extraire les tags ID3 (donnes renseignant sur lauteur, lalbum dun fichier mp3). Dans le cas dune page Web (fichier HTML ou quivalent), il sagira dextraire le titre de la page (balise <title>), et les donnes contenues dans les balises <meta>. Par exemple :
<title>Bienvenue sur le site de Y Mistikrik ?, l'association de thtre de l'EFREI !</title> <meta name="keywords" content="theatre,thatre,efrei,association,etudiante,asso,mistikrik,ye" /> <meta name="description" content="Y Mistikrik? est l'association de thatre de l'EFREI. Venez dcouvrir sur ce site notre assoce, la troupe, les pices que nous avons jou et les photos !" />

La premire ligne montre le titre du document HTML. La deuxime fournit des mots cls en rapport avec le site (ici le site de lassociation de thtre de lEFREI http://assos.efrei.fr/theatre/index.php ). La dernire contient une brve description du contenu du site. On trouve aussi dautres balises <meta> renseignant sur lauteur, le logiciel utilis pour gnrer la page, etc.

III.4.2 Les mtadonnes ne suffisent pas !


Idalement, ces donnes devraient suffire dterminer les mots-cls associs la page. Cela fut vrai les premires annes de la recherche internet. Mais malheureusement, de nombreux abus on fait perdre toute crdibilit ces mtadonnes. Certaines personnes nhsitaient pas indiquer des mots-cls trs demands mais sans relation avec leur page, simplement pour sattirer plus de visiteurs. Ainsi, et paradoxalement, on ne peut pas faire confiance lauteur pour la classification des pages. Il faut voir au del et utiliser des mthodes bien plus pousses afin de dterminer la vraie signification dune page.

III.4.3 Lanalyse structurelle globale


Une page HTML contient de nombreux lments, mais la plupart dentre eux nont quun rapport lointain avec le contenu de la page. Les menus, bannires, publicits doivent tre limins par le spider pour ne garder que le contenu dune page, do il pourra extraire les mots-cls. Pour cela, le robot se base sur des rgles statistiques. En effet, la plupart du temps, les images plus longues que larges situes en tte de page sont des bannires publicitaires. Lanalyse de lURL de limage sera un poids de plus pour dterminer la pertinence dune image. De mme, les menus de navigation sont composs de liens comportant peu de texte encadr par de nombreuses balises, et sont souvent situs gauche de la page.

Page 10 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

<h2>Le Site...</h2> <a href="/index.php">Accueil</a> <a href="/mika/cv.php">Consulter mon CV</a> <a href="/contact.php">Crdits et Contact</a> <a href="/design/index.php">Webdesign</a> <a href="/labo/index.php">Web applications</a> <a href="/extras/index.php">Extras</a>

(exemple de structure typique dun menu - http://www.lesitedemika.org ) Par ce procd, le robot arrive dans la plupart des cas dterminer la structure globale dune page, et faire abstraction des lments non significatifs.

III.4.4 Lanalyse smantique


Une fois le contenu du site isol, le robot peut alors lanalyser pour en extraire les mots-cls. Il est noter que lobjectif dun spider nest pas de comprendre le contenu dune page, mais den dterminer les lments importants. Pour cela, plusieurs oprations sont ralises : Tout dabord, le robot dtermine la langue dans laquelle est rdige la page. Il peut le faire grce aux mtadonnes, mais il est plus sr pour lui dutiliser des algorithmes de reconnaissance des langues. Ceux-ci se basent sur des statistiques pour dterminer une langue partir de mots reconnaissables, ou de la frquence de certains mots ou expressions. Je mappelle Mickal MARCHAL, j'ai 21 ans, j'habite en Seine-Saint-Denis (France) et je suis actuellement en deuxime anne de cycle ingnieur l'EFREI, o je prpare mon diplme d'ingnieur en Technologies de l'Information et du Management. Je suis donc un futur ingnieur informaticien, passionn comme il se doit par les technologies et le dveloppement. Langue reconnue : Franais Ensuite, le robot retire les articles de liaisons et les mots communs de la langue. En franais, des mots comme de , un , le , ou seront retirs.

Je mappelle Mickal MARCHAL, j'ai 21 ans, j'habite en Seine-Saint-Denis (France) et je suis actuellement en deuxime anne de cycle ingnieur l'EFREI, o je prpare mon diplme d'ingnieur en Technologies de l'Information et du Management. Je suis donc un futur ingnieur informaticien, passionn comme il se doit par les technologies et le dveloppement. Les mots de liaison ont t supprims (en gris) Le robot utilise aussi la structure HTML du document pour juger de la pertinence des mots. Ainsi, une phrase en gras, ou un texte crit plus gros sera considre comme important par un spider. De mme, les liens, ou les mots en majuscules verront leur importance saccroitre. Mais si tout le site est en gras, les poids des mots restera le mme.

Page 11 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

Je mappelle Mickal MARCHAL, j'ai 21 ans, j'habite en Seine-Saint-Denis (France) et je suis actuellement en deuxime anne de cycle ingnieur l'EFREI, o je prpare mon diplme d'ingnieur en Technologies de l'Information et du Management. Je suis donc un futur ingnieur informaticien, passionn comme il se doit par les technologies et le dveloppement. Les mots en gras, en majuscules, et les liens ont t accentus Le robot va ensuite parcourir les liens situs au fil du texte et dterminer leurs motscls. Si des mots cls sont identiques ceux trouvs dans le texte, il y a de fortes chances que le texte analys soit corrl avec ces mots cls.

Je mappelle Mickal MARCHAL, j'ai 21 ans, j'habite en Seine-Saint-Denis (France) et je suis actuellement en deuxime anne de cycle ingnieur l'EFREI, o je prpare mon diplme d'ingnieur en Technologies de l'Information et du Management. Je suis donc un futur ingnieur informaticien, passionn comme il se doit par les technologies et le dveloppement. le lien EFREI renvoie http://www.efrei.fr, rfrenc avec les mots cls ingnieur , informatique , management , cole , etc. Ces mots deviennent alors plus importants (en rouge). La rptition de mots (et encore plus, dexpressions) au fil dun texte est aussi un indicateur dimportance (toutefois moindre).

Je mappelle Mickal MARCHAL, j'ai 21 ans, j'habite en Seine-Saint-Denis (France) et je suis actuellement en deuxime anne de cycle ingnieur l'EFREI, o je prpare mon diplme d'ingnieur en Technologies de l'Information et du Management. Je suis donc un futur ingnieur informaticien, passionn comme il se doit par les technologies et le dveloppement. les mots ingnieur et technologies sont accentus (en bleu) Au final, le spider aura dtermin les mots les plus importants comme tant : Mickal Marchal Mickal Marchal (car les deux mots sont tous les deux en gras cte cote, lexpression Mickal Marchal est accentue) EFREI Ingnieur Technologies Information Management Futur Futur ingnieur informaticien Etc.

Page 12 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

III.4.5 La pondration des mots cls


Une fois les principaux mots cls extraits, ils sont pondrs en fonction de leur raret sur la toile. Plus un mot est rare sur le web, plus limportance qui lui est accorde sur le site analys sera grande, et inversement. Ainsi, dans notre exemple, Mickal , Marchal , et EFREI auront une plus grande importance que futur , technologies , information .

III.4.6 Les limites de lindexation


Voici les principes de base de lanalyse faite par les moteurs de recherches. Mais bien sr, les mcanismes intimes des robots ne sont pas connus, et de nombreuses hypothses circulent ce sujet : ce sont les techniques de rfrencement. Certaines paraissent logiques et vrifiables ; dautres tiennent plus des recettes de grand-mre. Une chose est sure : le rfrencement nest pas une science exacte, mais est une discipline sur laquelle il faut se pencher pour faire connatre son site sur le net. Voici dailleurs quelques conseils gnraux appliquer pour un bon rfrencement : 1. Contenu 2. Nombreux liens externes 3. Liens externes de qualit 4. Bons titres 5. S'inscrire dans les grands annuaires 6. Pas de frames, et une bonne adresse de site 7. Un site toujours disponible 8. Interconnexion de vos pages 9. Pas de site sans texte 10. Mises jour rgulires du site

Mais il faut aussi se rappeler que la multitude des contenus, des mises en page ou des informations ne font pas non plus de lindexation une science exacte. Les moteurs de recherche commettent de nombreuses erreurs de rfrencement, entrainant des lapsus plus ou moins loufoques. Ainsi, en tapant le mot failure (chec) sur Google.com, le premier rsultat renvoy est la biographie officielle de George W. Bush, sur le site de la Maison Blanche !

Page 13 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

III.5 Cas particulier : Google et le PageRank


Lors de son lancement en 1998, Google a introduit un nouveau concept rvolutionnant le petit monde des moteurs de recherche : le PageRank. Le PageRank est une mthode invente par Google pour mesurer l'importance relative des pages du web, que l'on appelle souvent la popularit. Elle est base sur la topologie du web, c'est--dire sur l'tude des liens entre les pages. L'ide principale est que si une page A fait un lien vers une page B, alors c'est que la page A juge que la page B est suffisamment importante pour mriter d'tre cite et d'tre propose aux visiteurs. Ce lien de A vers B augmente le PageRank de B. Deux ides supplmentaires mais essentielles viennent la complter :

l'augmentation du PageRank de la page B est d'autant plus importante que le PageRank de la page A est lev. En d'autres termes, il est bien plus efficace d'avoir un lien depuis la page d'accueil de Google que depuis une page dun site personnel. l'augmentation du PageRank de la page B est d'autant plus importante que la page A fait peu de liens. En d'autres termes, si la page A juge qu'il n'y a qu'une page qui mrite un lien, alors il est normal que le PageRank de la page B augmente plus que dans le cas o de nombreuses pages obtiennent un lien.

Le PageRank est donc un moyen assez puissant de dterminer la popularit dune page autrement dit, sa qualit. Le PageRank est une note donne sur 10 chaque page. Les petits sites ont souvent un PR entre 0 et 2, les sites de moyenne frquentation ont un PR gnralement situ entre 3 et 6. Les PR suprieurs sont rservs aux gros ou trs gros sites : seuls les gants comme Google, Yahoo, Amazon, la NASA ou Microsoft peuvent prtendre au PageRank 10. Il faut toutefois noter que PageRank ninflue pas sur les mots cls du site, mais sur lordre de classement du site lui-mme sur Google, lorsque la requte saisie contient les mots-cls du site. En recherchant http sur Google (mot prsent sur quasiment tous les sites de la plante), les premiers rsultats sont les sites PageRank lev : Microsoft, puis le W3C (organisme de standardisation du web, donc du protocole http), Altavista, CNN, Yahoo, etc. La qute du PageRank lev est lobjectif numro un des spcialistes en rfrencement, quand on connait les parts de march de Google. Augmenter le PR dune unit peut amener des centaines de milliers de nouveaux visiteurs sur un site !

Page 14 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

IV. Traitement des requtes


Indexer, cest bien, mais encore faut-il restituer les fruits de ce rfrencement aux utilisateurs. Il faut surtout fournir ces derniers les outils pour interroger le moteur de recherche de la faon la plus complte possible.

IV.1 Langage naturel ou mots cls ?


Vu la richesse de la langue franaise, le nombre de questions possibles pour une simple interrogation est trop important pour arriver interprter la demande, sans oublier le nombre d'erreurs de l'utilisateur (fautes d'orthographes, de frappes, de franais) qui crot normment. Il devient alors quasiment impossible d'analyser et traiter la demande. Le moteur de recherche ask.com fait une exception, puisqu'il a tenu utiliser ce procd. Toutefois, lutilisation du langage naturel na pas permis daugmenter la popularit de ce moteur, qui reste trs peu utilis. En effet, le langage naturel comporte galement des inconvnients pour l'utilisateur puisqu'il doit rflchir une question adquate et qui peut tre prise en compte correctement. D'autre part, effectuer des recherches sur de simples mots-cls ouvre de nombreuses possibilits daffinement de la recherche et ainsi offre une plus grande panoplie de rponses. Cela permet d'tre plus rapide, puisque le moteur impose une syntaxe simple et facile parser ou interprter. Gageons quavec le temps et les progrs de lIntelligence Artificielle, le langage naturel simposera tt ou tard pour les moteurs de recherche. Mais pour le moment, les ressources ncessaires pour le dploiement dun tel systme grande chelle en font un outil peu utilisable et peu rentable. C'est pourquoi, la quasi-totalit des moteurs utilisent ce procd. Pour un souci d'efficacit, la plupart des moteurs offre de nombreuses fonctionnalits pour affiner les recherches. Ainsi, selon les moteurs, il est possible de chercher des sites selon une extension de domaine bien dfinie, dans une langue particulire, des images, etc... mais il s'agit l d'options avances.

Page 15 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

IV.2 Principales diffrences entre moteurs


Voici un tableau comparatif rpertoriant les diffrences entre les principaux moteurs de recherche par mots-cls :
Nombre de pages C'est le nombre total de pages indexs dans le moteur de recherche Contenu Indique le type d'informations catalogues Version franaise Disponibilit d'une version franaise Recherche avance Indique si des fonctions de recherche avances sont disponibles Oprateur standard Recherche les pages contenant tous les mots insrs (AND) ou seulement un seul d'eux (OR Recherche de phrases Spcifie si on a la possibilit et comment chercher des phrases composes de plusieurs termes Pluriel/Singulier Indique si les mots sont cherchs aussi dans leur forme plurielle Mots ignors Indique si la recherche ignore les articles, certaines particules ou des mots trs communs (par ex.: web, Internet,etc.) Champs de recherche Reporte la possibilit d'utiliser des paramtres afin de prciser la recherche Recherche d'images, sons, Java, etc. Indique la possibilit de spcifier files multimdia Recherche par langue Indique s'il est possible de slectionner uniquement les pages web crites dans une langue prdtermine Filtre pour les enfants Permet d'exclure des rsultats des recherches les sites web caractre pornographique, violent, etc. Regroupement de rsultats Pour chaque site trouv qu'une seule page est reporte Personnalisation des rsultats des recherches Indique la possibilit de personnaliser la faon de laquelle les rsultats des recherches sont affichs Mmorisation des prfrences personnelles Indique s'il est possible de mmoriser des paramtres personnels Fonctions spciales Indique les fonctions particulires Catalogue sites Indique s'il existe une archive des sites subdiviss par arguments Temps d'insertion dans les sites C'est le temps qu'il faut compter depuis l'enregistrement avant d'apparatre dans le moteur de recherche

Page 16 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

AltaVista
N de pages (millions) Contenu 1100 Web, Usenet, Images, MP3, Audio, Video OUI OUI AND Oui, en utilisant les guillemets (") Oui, utilisant "*"; par ex.: "auto*" trouve autos, automobile, etc. OUI Oui: langue des pages, title, keyword, url, link, site, image. Ex.: "image:foto.jpg"

AllTheWeb (FAST)
2100 Web, News, Photos, Videos, Audio, FTP, PDF, SWF NON OUI AND Oui, en utilisant les guillemets (") NON

HotBot
3300 Web, Usenet, News

Google
3000 Web, Usenet, News, PDF (22 millions), DOC, XLS, PPT, RTF OUI OUI AND Oui, en utilisant les guillemets (") OUI (seulement anglais)

Version franaise Recherche avance Oprateur standard Recherche de phrases Pluriel/ singulier

OUI OUI AND Oui, en utilisant les guillemets (") OUI (seulement anglais)

Mots ignors Champs de recherche

OUI Oui: langue, filtre de mots et domaines,date de mise jour et dimension des pages

Recherche par langue Filtre pour les enfants Regroupement de rsultats Personnalisation des rsultats des recherches

OUI OUI OUI Oui: beaucoup de possibilits

OUI OUI OUI Oui: beaucoup de possibilits

OUI Oui: position gographique, type de fichier, date, url, etc. Utiliser les "meta words" dans le texte de la recherche ou sinon les options OUI OUI OUI Oui: visualise 10/25/50/75/100 sites par page; description brve, complte ou seulement l'adresse OUI

OUI Oui: title, keyword, url, link, site, image. Ex.: "image:photo.jpg"

OUI NON OUI Oui: beaucoup de possibilits

Mmorisation des prfrences personnelles Fonctions spciales

OUI

OUI

OUI

Recherche rapide images, personnalisation interface

Recherche sur Lycos, Google et AskJeeves en option, personnalisation/skin interface

Annuaire de sites Temps d'insertion dans les sites

OUI 7-45 j.

OUI 9-14 jours

OUI 20-30 j.

Traduction des pages web;Bouton "J'ai de la chance" amne directement au 1er rsultat,version cache des pages, autres... OUI 15-30 j.

Page 17 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

IV.3 Mots cls


Ds la formulation de la requte, on peut exclure les sites comportant un certain mot ou rechercher les sites contenant deux mots juxtaposs et non dispers dans le texte grce des oprateurs dcrits dans le tableau ci-dessous : Tableau des oprateurs Oprateur Boolen +nom1 +nom2 nom1 + nom2 ou nom1 nom2 +nom1 -nom2 nom* guillemets Essentiel (+) Exclusion (-) Rsultat Renvoie les documents contenant les 2 mots cherchs Renvoie les documents contenant un des 2 mots cherchs (ou les 2)

Renvoie les documents ne contenant pas le mot qui suit l'oprateur Renvoie les documents contenant les mots proches du mot cherch Renvoie les documents contenant la phrase entire Le symbole "+" classifie un mot comme essentiel Le symbole "-" exclut un mot de la recherche

Fast ET +

Altavista Excite + + ou AND par dfaut

OU

non

PROCHE SAUF

non -

NEAR ou ~ AND NOT ou !

PHRASE EXACTE TRONCATURE ACCENTS PRIS EN COMPTE MAJUSCULES MOTS ORDONNES

"" non oui

"" * oui

Google Voil Par + ou ET dfaut ou ou AND + par non par dfaut dfaut ou ou OR ou OR OU non non PROCHE ou NEAR - ou - ou NOT AND ou SANS NOT ou AND NOT "" "" "" non oui non oui non indiff.

Webcrawler + ou AND

par dfaut ou OR non - ou NOT

"" non oui

indiff. indiff.

indiff. oui

indiff. indiff.

indiff. oui

indiff. indiff.

indiff. indiff.

Source: Le Monde Interactif Comme l'utilisateur est toujours susceptible de mal orthographier un mot ou faire une faute de frappe, les moteurs de recherche proposent selon les cas d'effectuer la recherche sur les synonymes des mots ou des mots ayant une orthographe proche.
Page 18 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

Pour tendre la recherche, certains moteurs comme AltaVista proposent de traduire les mots que l'utilisateur a entrs avant de lancer la requte.

IV.4 Rsultats trouvs en fonction des requtes lances


Tous les types de moteurs de recherche sans exception doivent tre capables d'analyser la demande de l'utilisateur, puis d'effectuer des requtes afin de lui fournir les rsultats les plus pertinents possibles. Pour cela, ils composent des requtes selon les mots ou expressions entres par l'utilisateur. La premire recherche consiste chercher dans les mots-cls des pages indexes les mots recherchs dans le mme ordre. Certains moteurs vont jusqu' rechercher dans le contenu des pages. Ensuite les moteurs recherchent galement les mots mais dans un ordre diffrent, certains autorisent les singulier/ pluriel au mme titre, si bien que si on a entr un mot au pluriel, il effectuera aussi une requte avec le mot au singulier. Des associations de mots sont aussi possibles, comme par exemple sur Google, en saisissant "avenant installation logiciel", on trouve des rsultats avec les mots en gras "avenant installer logiciel". Ainsi les moteurs analysent d'abord les mots ou expressions entrs et en extraient les donnes par exemple le fait de rechercher deux mots juxtaposs et non comme deux mots distincts, le fait d'ter les requtes reportant un certain mot, etc...

IV.4.1 Recherches avances


La plupart des moteurs offrent des fonctionnalits supplmentaires grce aux recherches avances. Mais cela ne fait que rallonger la requte lance puisqu'il s'agit de faire appel d'autres paramtres dj associs aux pages indexes.

IV.4.2 Ordre des rsultats lors du rendu des rponses


Etant donn la masse colossale des pages indexes, le nombre de rsultats est important, de l'ordre de la centaine voir plus pour chaque requte. Mme la recherche de ses prnom et nom juxtaposs peut rapporter plus d'une centaine de pages, bien que de moins en moins pertinents. Personnellement, j'ai eu la surprise de trouver que mon identit tait associe une maison de th-restaurant (eh oui, mon nom(prnom) sont dj pris comme nom de domaine. Peut-on faire un procs pour ?). Pour cette raison, les utilisateurs ne lisent plus les rsultats partir de la troisime page de vingt rsultats. D'o l'importance de positionner les rsultats les plus pertinents en tte de liste. Aussi certains moteurs commercialisent l'emplacement des sites selon les mots cls et l'on trouve de colossales enchres pour certains d'entre eux. Pour les autres pages, le degr de pertinence (et le PageRank) prennent tout leur sens : le nombre de critres satisfaits par la page indexe par rapport la recherche lance, et la cte de popularit qui permet de dterminer sans part humaine du ct du moteur, le degr d'adquation des rsultats aux demandes des utilisateurs. Un site est plus ct quand d'autres sites pointent vers lui, mais il est encore plus ct si lui contient des liens pointant vers ces sites qui le pointent. Ainsi, les partenariats peuvent tre trs intressants.

Page 19 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

Certains moteurs vont jusqu' personnaliser la liste. En effet, le moteur peut enregistrer les sites les plus visits par l'utilisateur avec sa dure et peut ainsi tre capable de graduer l'apprciation d'un site par cet utilisateur. Il est possible alors d'instaurer des degrs d'apprciation sur ce site avec des commentaires et de supprimer des sites automatiquement des listes de rsultats. Les sites les plus apprcis par l'utilisateur se positionnent en tte de liste. L'on peut se rendre compte rapidement compte d'un inconvnient majeur : vu que ces donnes sont stockes sur l'ordinateur de l'utilisateur, celui-ci ne pourra bnficier uniquement de ces amliorations sur un de ses pc et ceux qui partagent leur ordinateur hsiteront simplement les utiliser.

V. Conclusion
Ce mmoire ne fait queffleurer le monde complexe et impitoyable des moteurs de recherche. Nombre de secrets sont bien gards, et nombre dincertitudes planent sur les algorithmes utiliss par Google et ses pairs. Mais, une chose est certaine : les principes de base sont bien l. Comprendre le fonctionnement, mme succinctement, dun moteur de recherche, permet de mieux entrevoir les possibilits et la puissance quils nous offrent en tant quutilisateurs, mais aussi en tant quentrepreneurs.

Page 20 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

VI. Annexes
VI.1 Quelques Chiffres
Comment arrive-t-on sur un site Web ? Etude CommerceNet/Nielsen Media - Juillet 1997 71,0% Par les moteurs de recherche 9,8% Conseill par amis ou collgues 8,5% Journaux quotidiens ou priodiques 8,4% Lien sur un autre site 8,1% Par hasard, en surfant 3,6% Signal la TV 3,3% Guides sur les sites web Parts de march des moteurs de recherche aux USA Etude Nielsen Netratings - Juillet 2004

Page 21 / 22

Les moteurs de recherche

Mickal Marchal Nadia Tea

Parts de march des moteurs de recherche en France Etude Indicateur.com - Fvrier 2006 Moteur
1. Google 2. MSN 3. Yahoo 4. Voila 5. Aol 6. Free 7. Club Internet 8. Altavista 9. 9Online 10. Lycos

PDM
72,20 6,37 5.74 5,07 1,54 1,2 0,44 0,34 0,19 0,14

IV.2 Bibliographie / Webographie


http://www.lesmoteursderecherche.com/ http://docs.abondance.com/portails.html http://www.webrankinfo.com/ http://www.dsi-info.ca/moteurs-de-recherche/langages/operateurs-logiques.html http://www.bius.jussieu.fr/web/recherch.html http://www.asktibbs.com/php/article.php3?id_article=11 http://www.uhb.fr/ccb/moteurs.htm http://www.commentcamarche.net/utile/recherch.php3 http://searchenginewatch.com/ http://www.indicateur.com http://www.search-marketing.info/search-engine-history/ http://www.answers.com/topic/archie-search-engine http://www.owil.org/lexique/r.htm PC Expert n161 (fvrier 2006) Redesign Web 2.0 : Conduite de projet Kelly Goto & Emily Cotler Ed. Eyrolles Projet de site Web 2eme dition Nicolas Chu Ed. Eyrolles

Page 22 / 22