"We hate spam!" Tel est le cri des représentants des moteurs de recherche et des annuaires qui ont participé à une édition spéciale de la rencontre "Search Engine Strategies". Le titre de la conférence était "The Search Engine Spam Police" et parmi les invités nous pouvions trouver des représentants d'Inktomi, Google, FAST Search, LookSmart et OpenDirectory Project(ODP/DMOZ).
Depuis le début du WWW, professionnels, webmasters ainsi que de simples curieux ont cherché les meilleures méthodes pour rendre visible leurs propres pages sur Internet.
La méthode plus simple et économique consistait à utiliser des moteurs de recherche comme source de trafic. Toutefois l'utilisation de techniques et de trucs de différentes espèces ayant pour but de positionner les sites le plus haut possible dans les classements a préoccupé les différentes ressources pour la recherche sur le net et dans le temps a obligé les moteurs à changer continuellement les règles d'indexation afin de réussir à continuer à offrir des résultats de qualité.
Ainsi ont été rédigées les règles, la Policy, auxquelles il faudrait que tout le monde adhère lors de la création de pages web.
Il est également important de constater comme les frontières entre ce qui est permis, toléré et ce qui est interdit par les outils de recherche soit en constante évolution, avec un trend décisif vers de règles toujours plus restrictives laissant peut de place à la créativité et aux astuces des webmasters. En effet, il est difficile aujourd'hui répondre à la question: "Quelles pages doivent être considérées spamming?". Dans des termes très génériques chaque page qui présente des caractéristiques insérées par l'éditeur avec le seul but de favoriser son positionnement dans le ranking des moteurs de recherche et qui offre un contenu inapproprié, superflu ou de basse qualité pourrait être considérée illicite.
En lisant les "conditions" du service offert par certains des principaux moteurs de recherche on peut constater plusieurs points communs entre les moteurs, une vision commune de certaines problématiques mais aussi certaines différences et lacunes importantes.
Dans ces pages sont indiquées quels sont les contenus interdits et parfois les façons avec lesquelles ceux qui sont acceptés ne peuvent pas être admis.
Sur presque tous les moteurs il est mentionné que les sites ne doivent pas rediriger automatiquement vers d'autres pages (redirect), que le site ne peut contenir des écritures ayant la même couleur que la couleur de fond, un nombre excessif de mots clés (keyword stuffing) ou quelconque mécanisme qui tente délibérément à interférer avec le fonctionnement des algorithmes des moteurs.
Nous pouvons lire la même chose sur Altavista mais ici les règles sont encore plus précises et indiquent également d'éviter
- Pages avec du texte qui n'est pas facilement lisible, soit parce qu'il est trop petit, soit parce qu'il est obscurci par l'arrière-plan de la page
- Pages avec trop de mots-clés ou sans rapport
- Pages générées automatiquement et proposant un contenu minimum voire nul, dont le seul but est d'amener l'utilisateur à cliquer sur une autre page.
Altavista précise également que les essais d'inclure dans l'index d'AltaVista des pages promotionnelles ou mensongères diminue la valeur de l'index pour tout le monde.
Les représentants de plusieurs moteurs, parmi lesquels Inktomi, Google et Fast Search, spécifient également qu'ils considèrent spam toutes les pages constituées d'un grand nombre de liens, sans contenu. Ces pages sont appelées aussi FFA (Free-For-All) car elles permettent (ou mieux, elles permettaient) à quiconque d'insérer un lien aux propres pages, créant ainsi de très longues listes effectivement sans valeur pour les moteurs tout comme pour les visiteurs. En règle générale sont critiqués les "link farming" et les "link spamming", ces techniques qui cherchent à influencer la link analysis et en particulier la Google PageRank.
Sur le thème du cloaking (également appelé IP-delivering - voir FAQ) les moteurs ont par contre des vues différentes: Google, Inktomi et Fast Search le considère une plaie à effacer car il consiste à montrer aux moteurs des pages qui ne correspondent pas à celles qu'effectivement le visiteur consultera. AltaVista de son côté ne le mentionne pas dans sa policy et il y à même certains qui ont une attitude bien plus tranquille, en considérant le cloaking comme une aide valable pour tous les sites qui pour un choix de plate-forme technologique ou choix du graphisme ont de sérieux problèmes avec de l'indexation et ne peuvent absolument pas espérer être bien positionnés dans les moteurs de recherche.
Les possibles inconvénients
Qui fait du spamming, volontairement ou moins peut selon ce qu'il à fait obtenir:
- Pénalisations du positionnement des pages
- Exclusion de la page de la base de données du moteur
- Non de domaine du site banni par le moteur
- Etre indiqué comme SPAMMER dans les "listes noires" des moteurs de recherche
- Voir l'IP du serveur banni
Directory
Les problèmes et les difficultés dans la lutte contre les spammer existent même chez les annuaires mais se présentent sous des formes différentes.
Bob Keating, Editorin-Chief de l'Open Directory Project (DMOZ) définit spam la continuelle et agressive proposition de sites identiques à une ou plusieurs catégories inappropriées et des sites qui violent de manière flagrante les règles indiquées dans l'annuaire durant la phase d'insertion.
Les règles/conditions pour l'insertion d'un site dans les annuaires varient considérablement d'un à l'autre, même si tous actuellement prêtent une attention particulière aux distinctions entre sites génériques et sites d'e-commerce/commerciaux.
En effet, depuis que les programmes d'affiliation se sont répandus en tant que canaux de vente et promotion de produits sur le Web, les tentatives d'indexer des sites ou certaines pages contenant simplement des offres commerciales d'autres sites, n'apportant rien de neuf et différent sur le net, ont automatiquement augmenté.
Les indications des moteurs et des annuaires à qui doit créer des pages et des sites avec le but de tirer le maximum de profit des recherches des internautes sont tellement simples qu'elles semblent anachroniques: créer un contenu approprié, organisés de façon simple et linéaire à l'intérieur d'un design essentiel. Créer donc un site utile, qui soit une aide réelle aux visiteurs.
Nous ne pouvons qu'être d'accord et encourager cette vision essentielle du design mettant en évidence justement les contenus, leur sélection et organisation à l'intérieur d'un contexte global de liens hypertextuels.
LesMoteursDeRecherche.com 12/02
Description des plus importants moteurs de recherche
Pages monographiques
Technologie des moteurs
Statistiques et classements
Tableau comparatif
Articles
Interviews exclusives
Newsletter