En outre, dans sa manière de vous présenter les résultats, il donne un sens aux résultats, à cause de la manière dont il les présente. Si on prend Google, les sites résultants d'une recherche sont classés par "page rank", c'est-à-dire grossièrement que plus un site est référencé, plus il est considéré comme pertinent (nous reviendrons dans un prochain article là-dessus). Cependant, il arrive fréquemment que le site qui ait la réponse que vous recherchez ne soit pas le premier de la liste. On peut apparenter cela à un dictionnaire qui serait trié par fréquence d'utilisation d'un mot dans une langue.

Cela vient aussi de la manière de poser la question. Les moteurs de recherche ne sont pas encore doués de capacités syntaxiques et sémantiques très évoluées : on ne peut pas leur parler comme on le ferait à n'importe qui. En fait, le langage qu'on emploi pour leur poser des questions est encore plus rustique que celui d'un enfant de 2 ans. Donc, forcément, quand on pose mal la question, ce n'est pas simple de trouver la bonne réponse.

Donc pour résumer ce qu'est un moteur de recherche :

  • une paire de jumelle car il ne donne accès qu'à une minuscule partie d'Internet ;
  • un dictionnaire étrangement trié ;
  • un enfant de 2 ans aux capacités d'expression plus que limitées.

Pour remédier en partie à ces lacunes, les moteurs de recherche fournissent une pléthore plus ou moins importante de mots-clés permettant d'affiner les recherche.

Plus vous comprendrez le fonctionnement interne de Google et plus vous serez en mesure de découvrir l'information au fin fond du web. Mais avant de plonger directement dans les abîmes de la quintessence de son utilisation, un petit rafraîchissement des mémoires quant à son utilisation de base s'impose.

Avant de parler de mots-clés il est intéressant de comprendre certains principes de base. La plus simple requête dans Google que vous pouvez effectuer sera une suite de mots :

 bétancourt libération

De cette manière Google recherche les pages contenant les mots "bétancourt" et "libération". Ce qui est intéressant de savoir c'est que Google cherche ces deux mots mais pas nécessairement l'un à la suite de l'autre. Pour que Google cherche ces deux mots l'un à la suite de l'autre il faudra utiliser des guillemets:

 "bétancourt libération"

Une variante est d'utiliser l'astérisque. Contrairement à certaines idées préconçues, l'astérisque ne remplace pas une lettre mais un mot.

 "Bétancourt * libération"

Cette requête trouvera des pages contenant "Bétancourt prochaine libération" et de nombreuses autres.

Quelques autres règles importantes à mémoriser : Google ne fait pas la différence entre majuscule et minuscule, il ne considère pas les accents, il est limité à une recherche de 10 mots mais surtout il y a un poids attribué à chaque mot. Par exemple, une requête comme :

 bétancourt libération FARC guérilla

n'aura pas le même résultat qu'un requête comme :

 bétancourt libération FARC guérilla guérilla guérilla

Plus un mot apparaît dans la requête, plus il est considéré comme important.

Dans la catégorie "je veux exclure un mot", il est possible d'utiliser l'opérateur '-' :

 bétancourt libération FARC -uribe

De cette manière, Google retourne toute les pages comprenant ces trois derniers mots mais sans le mot 'clearstream'. L'opérateur "-" est de notre point de vue un des opérateurs les plus intéressant pour affiner une recherche.

Il s'agit là pour l'essentiel de ce qu'on appelle des "opérateurs booléen" : et (AND), ou (OR) et non (NOT). Ils permettent de construire les phrases pour l'enfant de 2 ans. Implicitement le "et" sert à relié tous les mots. Si on cherche l'un ou l'autre, on utilise alors le OR :

 bétancourt OR libération

Mais si on préfère l'un sans l'autre :

bétancourt -libération

Et voilà, c'est fini pour l'instant ... mais la suite arrive : les mots clés.




Mum, what's a search engine?

The first step before going deeper into how Google and other are working is to understand that it is similar to binoculars. When you look at the world through it, you can only see a small part, enlarged and deformed. As soon as you remove them, you see normally again. A search engine behaves in the same way because it does not see all the web.

Moreover, in the way it displays results, it also twists the reality. Consider Google where the results are sorted according to page rank, that is the more an article is referenced, the highest it is in the Google's results (we'll write later about that). However, the answer you are looking for is not often in the 1st site given by Google. So, it is like if you were using a dictionary sorted based on the frequency of a word in the language rather than the usual alphabetic order.

But this is also because it is not that easy to "speak Google", and thus to ask the proper question. The search engines do not have very high communication skills: their syntax and semantic is as rich as a 2 year old child. The of course when the question is badly asked, it is really complicated to get the proper answer.

So, to summarize what is a search engine:

  • binoculars because you only see a very small part of the picture (web).
  • a dictionary strangely sorted.
  • a 2 year old child with poor communication skills.

In order to solve some of these deficiencies, the search engines propose several "keywords". They are very helpful to get more accurate results during a search.

The more you understand how a search engine is working, the easiest it is to find the most pertinent information, the one you were expecting. But before digging into keywords, let's go back to some basic usage.

The most simple query we can send is the sequence of words:

 bétancourt liberation

Here, Google searches for pages containing both the words "bétancourt" and "liberation". These words do not need to be exactly one after the other, but just in the same document. However, if we want them as an exact match, we have to use the "" operator:

 "bétancourt liberation"

You can also use the star *, which is used to replace any word in an expression:

 "Bétancourt * liberation"

It will gives us for instance "bétancourt near liberation" and many more.

Some other rules to keep in mind: - there is not distinction between lower and upper case. - accents are ignored. - you can not put more than 10 words in a query. - you can increase the importance of a word by repeating it, that is the result given by

 bétancourt liberation FARC guerrilla

is not the same as the one for::

 bétancourt liberation FARC guerrilla guerrilla guerrilla

The more a word appears, the more it is regarded as important.

If you want to exclude a word from your results, you can use the operator "-" :

 bétancourt liberation FARC -uribe

In this way, Google will provide pages containing the 3 first words, but not "clearstream". The operator "-" is one of the most efficient when one wants to get better results.

All these are what is called "Boolean operators": AND, OR and NOT. They let you build sentences like if you were a 2 year old child. "AND" is used by default when you give several words. But if you are searching for one word, or the other, you should consider OR instead:

 bétancourt OR liberation

But if you prefer the first without the second:

 bétancourt -liberation

That's all folks for the 1st part, stay tuned.