|
|
 |
 |
 |
 |
>Les Principaux / Articles >La profondeur du web
La Profondeur du Web
Une étude révèle que les documents présentés sur le web sont en réalité plus de 500 fois ceux recensés dans les moteurs de recherche.
La société américaine BrightPlanet a présenté en juillet 2000 les résultats d'une étude approfondie sur la quantité de documents disponibles on-line, en arrivant à la conclusion que leur nombre s'élève à plus de 500 milliards de documents uniques dans ce qui est appelé le "deep web".
Le "deep web" est représenté par tous les sites accessibles à travers des modules de recherche et qui ne sont néanmoins pas disponibles dans la forme actuelle aux moteurs de recherche traditionnels. Il suffit de penser qu'une recherche effectuée dans les premiers mois de l'an 2000 par NEC Research Institute avec la collaboration d'Inktomi, indiquait l'existence d'un milliard de documents statiques et qu'aujourd'hui BrightPlanet estime le patrimoine caché 500 fois plus grand.
Cette imposante quantité de documents serait renfermée dans plus de 100'000 sites qui permettent d'accéder dynamiquement à des informations structurées dans leur propres archives, mais qui actuellement ne sont pas visibles par les moteurs de recherche qui recensent seulement les pages statiques singulièrement, celles que BrightPlanet définit "surface web".
La présentation de l'étude de BrightPlanet à été également l'occasion pour présenter la technologie LexiBot qui serait capable de sonder également le "deep web". LexiBot est en effet un software définit "search agent", capable d'effectuer des recherches on-line en interrogant des centaines d'archives on-line.
LexiBot c'est déjà un software disponible sur le marché mais pour l'instant uniquement pour Windows; il coûte 99 dollars et une version "trial" (d'essai) est prévue. Le programme est très flexible mais avec une interface un peu hors du commun. Les possibilités de recherche sont effectivement très vastes car il est possible, entre autre, d'accéder à 600 ressources à interroger (qui vont devenir plus nombreuses d'ici peu de temps), même si les temps de réponse sont plutôt longs par rapport aux moteurs de recherche traditionnels. Par ailleurs, les recherches gérées par le software sont transformées en demande singulières auprès des différents sites sélectionnés et ceci demande un certain temps d'élaboration.
Mais revenons à l'étude sur les dimensions du web afin de mieux comprendre la composition de cette Babel de données jusqu'à présent jamais aussi bien examinée. Voici les principales catégories de sites dans le "deep web":
- Archives de tout genre: base de données médicales, financières, brevets, etc. ; cette catégorie représente environ le 54% de la totalité du "deep web"
- Sites commerciaux consultables avec des interrogations, comme par exemple Microsoft Knowledge
- Publications de tout genre: livres, revues, etc.
- Annonces
- Portals
- Bibliothèques, librairies
- Yellow/White pages et catalogues du même genre
L'élément important à souligner c'est qu'au moins 95% du "deep web" est accessible librement par les internautes. Sur le site CompletePlanet sont reportés près de 22'000 sites, la majeure partie desquels est pratiquement invisible par les moteurs de recherche traditionnels. A titre d'exemple voici quels sont certains de sites publics qui composent le "deep web":
| Source | Dimensions archives |
| National Climatic Data Cnter | 366.000 Gb |
| NASA | 219.000 Gb |
| National Oceanographic Data Center | 32.940 Gb |
| MP3.com | 4.300 Gb |
| Amazon | 461 Gb |
| Library Of Congress Online Catalog | 116 Gb |
Et comme si ça ne suffisait pas, il faut néanmoins mettre en évidence que dans l'évaluer les dimensions du "deep web", l'étude n'a pas considéré, volontairement, les réseaux intranet des organisations et des sociétés (certaines accessibles publiquement) et surtout semble avoir analyser seulement des sources nord-américaines. BrighPlanet à néanmoins rappelé d'une façon concrète que les moteurs de recherche recensent seulement une petite partie de ce qui existe sur le web. Cet aspect, bien qu'il était déjà connu, très probablement il ne l'était pas dans ces dimensions.
Tout ceci sans compter que si le boom des systèmes "peer-to-peer", qui permettent de partager et échanger des fichiers entre internautes (système sur lequel se base par exemple Napster), sera étendu vers un concept de recherches d'informations et de documents, nous nous trouverons face à un autre, incroyable, élargissement des ressources accessible depuis notre pc.
Mauro Lupi pour LesMoteursderecherche.com
Description des plus importants moteurs de recherche
Pages monographiques
Technologie des moteurs
Statistiques et classements
Tableau comparatif
Articles
Interviews exclusives
Newsletter
|
 |
 |
 |
 |
|
|
|