MANAGEMENT
Exploiter les richesses du web invisible
![]() |
La taille du web invisible - documents mal ou non indexés par les moteurs de recherche conventionnels - serait jusqu'à 550 fois supérieure à celle du web visible. Savoir l'exploiter permet de bénéficier d'une veille plus efficace. |
Le 3 janvier dernier, Digimind, éditeur français de logiciels de veille stratégique, publiait un livre blanc intitulé "Découvrir et exploiter le web invisible". Dans ce document, Christophe Asselin, consultant et co-auteur, dévoile comment le web invisible peut devenir un outil indispensable à une veille plus efficace. Défini comme l'ensemble "des documents web mal ou non indexés par les moteurs de recherche généralistes conventionnels", l'étendue de cette source d'information est par définition difficile à évaluer, mais elle serait jusqu'à 550 fois supérieure à celle du web visible ! Le terme web invisible apparaît pour la première fois en 1994. En 2000,
Des documents qui échappent aux robots
Les moteurs et les répertoires de recherche traditionnels comprennent des éléments particuliers appelés "robots" qui balayent le web de façon automatique et recensent, dans des index, les données collectées. Cependant, il arrive que les robots se heurtent à des obstacles et deviennent incapables d'indexer certains documents. Ce sont ces documents qui constituent le web profond. Chris Sherman et Gary Price, experts américains en outils de recherche, distinguent quatre types de web invisible : Opaque Web (certains documents sont trop volumineux pour être entièrement indexés et certaines pages sont mal ou non liées, donc mal ou non référencées) ; Private Web (certaines pages sont interdites de référencement car l'auteur les protège en insérant un fichier robot.txt dans leur code) ; Proprietary Web (l'accès à certaines pages est protégé par un mot de passe) et, enfin, Truly Invisible Web (formats de fichiers non reconnus par les moteurs de recherche, etc.).
Des informations de qualité
Le web profond "couvre tous les secteurs d'activités principaux", indique Christophe Asselin (photo). On y trouve des catalogues (sites marchands, bibliothèques...), des sites d'annonces, mais aussi des bases de données spécialisées. Armelle Thomas*, consultante indépendante en information et documentation, explique quant à elle que ces bases "concernent soit le monde académique, en répertoriant des données scientifiques, des articles de revues, [...] soit le monde de l'entreprise, en donnant accès [...] à des études de marché, des articles de presse économique ou des bilans". D'une manière générale, la qualité du web invisible est considérée comme trois fois supérieure à celle du web visible. La notion de qualité, ici, se rapporte à la pertinence de l'information. En effet, contrairement au web de surface, le web profond est majoritairement constitué de sites spécialisés et permet souvent une recherche très ciblée.
Des outils nombreux et souvent gratuits
Selon Christophe Asselin (photo), l'utilisation de cette ressource dans la veille stratégique permet d'accéder à un "contenu plus qualifié, plus précis, plus vérifié, plus sectorisé et plus vaste". Les outils qui permettent d'exploiter le web profond sont nombreux, mais on peut les regrouper en quatre catégories : les bases de données et serveurs de banques de données ; les répertoires sélectifs (sites sélectionnés de manière qualitative et portails spécialisés) ; les outils et moteurs de recherche ou méta-moteurs spécialisés (qui interrogent simultanément plusieurs outils tout en étant spécialisés dans une thématique) ; les bibliothèques en ligne. La plupart de ces outils sont gratuits : à peine 1,1 % des sites du web invisible proposent un contenu entièrement payant. Il s'agit, entre autres, des grands serveurs de banques de données tels que Dialog, Factiva ou encore Lexis Nexis.
|
* Armelle Thomas est co-auteur avec Véronique Mesguich du livre "Net-recherche : Le guide pratique pour mieux trouver l'information utile", Éditions ADBS (sortie début mars 2006).
0.38 %











Publicité











RETOUR EN HAUT DE LA PAGE