|
|
 |
 |
 |
 |
Home >Les Principaux / Articles >L'Internet invisible
L'Internet Invisible
Dans un précédent article nous avons tenté d'expliquer ce que le "Deep Web" représentait et quelle devait être sa dimension effective.
Il existe toujours une partie du net qui reste uniquement accessible par certains points d'accès et selon certaines modalités et qui cherche toujours plus à être intégrée dans les ressources dédiées à la recherche d'informations sur le web.
Le sois-disant "Internet Invisible devient ainsi toujours plus visible et accessible.
On utilise généralement les moteurs de recherches pour la recherche sur le net mais nous devons reconnaître qu'il n'est pas encore possible de trouver toute l'information à travers ces outils objectivement limités: une grande partie n'est pas prise en compte et sûrement la plus grande partie.
Il n'est pas facile d'établir le pourcentage effectif connu et repérable de celui qui ne l'est pas: selon l'étude la plus exhaustive sur les dimensions du web, réalisée par l'organisation du South Dakota BrigthPlanet en 2000, il y aurait plus de 550 milliards de documents, alors que Google n'en indexe qu'un peu plus de 2 milliards, donc un pourcentage inférieur à 1%!
|
Moteur de recherche
|
Estimation
(millions)
|
Déclarent
(millions)
|
|
Google |
968
|
1,500
|
|
WiseNut |
579
|
1,500
|
|
AllTheWeb |
580
|
507
|
|
Northern Light |
417
|
358
|
|
AltaVista |
397
|
500
|
|
Hotbot |
332
|
500
|
|
MSN Search |
292
|
500
|
Les documents théoriquement accessibles sur le net sont donc très nombreux et pas tous au format html, par ailleurs, tous les moteurs de recherche emploient du temps technique pour indexer les pages, ainsi au moment de notre recherche les documents indexés seront toujours en moindre quantité ou/et différents de ceux effectivement présents sur le web. Selon des analyses très optimistes sur la partie visible du web, laissant de côté sous-réseaux ou protocoles différents de l'HTTP, les moteurs n'arrivent pas à indexer plus de 20%.
Que font les plus importants moteurs de recherche?
En tant que pionnier, Google a depuis de nombreux mois commencé à ajouter à son moteur la possibilité d'indexer plusieurs fichiers différents de l'html, tels que les images (gif ou jpg), les documents PDF, TXT, PostScript, les applications de la suite Microsoft Office et d'autres formats avec lesquels nous tous travaillons régulièrement. Il est vrai que plusieurs autres outils de recherche incluent aujourd'hui des formats de fichiers différents de l'HTML, mais Google reste celui qui pour premier les a introduits et a constamment agrandit la gamme des extensions supportées, arrivant ainsi en début 2002 à compter environ 2 milliards de documents.
Il participe donc à rendre constamment plus grande la base de donnée qui pour nous représente le web en entier: en effet, cela dépend de comment le logiciel d'indexation du moteur de recherche est structuré ou encore si certains liens vers des documents bien précis peuvent êtres suivis, en recueillant et cataloguant les informations nécessaires à les rendre disponibles aux recherches suivantes.
Nous devons également tenir compte que plusieurs sites riches en informations prévoient un accès dynamique à leur contenu: un accès personnalisé à la base de données grâce à des cookies et mots de passe. Les moteurs ne peuvent donc pas accéder à ces pages et il n'est pas dans l'intérêt de ces derniers de vouloir rendre accessibles leur contenu. Depuis le début 2002 un nombre croissant de sites ont ainsi placé un accès sécurisé à leur contenu ou du moins à une partie de celui-ci, soit pour des raisons de sécurité soit en rendant l'accès payant pour des raisons commerciales.
Des exemples sont le NewYork Times qui prévoit, par exemple, l'enregistrement (gratuit) pour accéder aux contenus de ses articles et le Wall Street Journal qui propose un abonnement de 59$ par an pour pouvoir le consulter dans son intégralité.
Les moteurs et les annuaires sur le net travaillent ardemment pour élargir les fonctionnalités de recherche à d'autres formats de fichiers, (comme Google le fait très bien), mais cherchent ainsi, en même temps, à créer des points de rencontre entre l'Internet visible et celui invisible.
AltaVista: a créé et inséré dans sa base de données quelques liens pointant directement sur les meilleures ressources présentent dans le deep-web et qui sont insérées entre les possibles résultats de nos requêtes. Se sont des sites qui ne peuvent pas être indexés par les moteurs de recherche mais qu'AltaVista a décidé de rendre disponibles en les faisant monter de quelques niveaux des profondeurs du web.
Google: l'archive d'images à dépassé les 330 millions de fichiers, tandis que les newsgroup contiennent plus de 700 millions de messages (la base de données à été mise à jour à l'année 1981!); il permet la recherche à l'intérieur de 600 catalogues d'Outlet Off-line, comme Ikea ou le magasin du Metropolitan Museum, dont les articles sont scannés et indexés avec un système de reconnaissance optique.
Pour accéder à l'Internet invisible et caché aux moteurs de recherche, sont nés certains sites/base de données spécialisés qui permettent une navigation plus aisée en classant les sites en catégories et sous-catégories. En pratique, se sont des instruments de précision, qui sous certains aspects peuvent aller plus en profondeur que ne puisse le faire un moteur de recherche classique, mais nécessitent toutefois d'efforts supplémentaires de la part des utilisateurs. Les ressources plus connues sont:
- Invisible-Web, annuaire qui recueille plus de 1000 sites dans une liste des meilleurs ressources de l'Internet invisible.
- MoreOver qui permet de chercher les dernières informations dans différents secteurs, recueillis par des spiders dans plus de 2000 sources différentes.
- Infomine qui recueille plus de 23'000 ressources académiques de grande valeur
- Resource Discovery Network où plusieurs professeurs, professionnels et organisateurs participent à la récolte et le classement de sources importantes pour la recherche et l'enseignement.
LesMoteursderecherche.com
Description des plus importants moteurs de recherche
Pages monographiques
Technologie des moteurs
Statistiques et classements
Tableau comparatif
Articles
Interviews exclusives
Newsletter
|
 |
 |
 |
 |
|
|
|