La taille du web invisible - documents mal ou non indexés par les moteurs de recherche conventionnels - serait jusqu'à 550 fois supérieure à celle du web visible. Savoir l'exploiter permet de bénéficier d'une veille plus efficace.
Le 3 janvier dernier, Digimind, éditeur français de logiciels de veille stratégique, publiait un livre blanc intitulé "Découvrir et exploiter le web invisible". Dans ce document, Christophe Asselin, consultant et co-auteur, dévoile comment le web invisible peut devenir un outil indispensable à une veille plus efficace. Défini comme l'ensemble "des documents web mal ou non indexés par les moteurs de recherche généralistes conventionnels", l'étendue de cette source d'information est par définition difficile à évaluer, mais elle serait jusqu'à 550 fois supérieure à celle du web visible ! Le terme web invisible apparaît pour la première fois en 1994. En 2000, la société Brightplanet propose de transformer cette expression en "web profond". En effet, cette partie du web est inaccessible avec des outils traditionnels, mais devient visible si l'on utilise des dispositifs spécialisés (notre tableau). Ainsi, les termes "invisible" et "visible" sont-ils parfois remplacés par "profond" et "de surface". Des documents qui échappent aux robots Les moteurs et les répertoires de recherche traditionnels comprennent des éléments particuliers appelés "robots" qui balayent le web de façon automatique et recensent, dans des index, les données collectées. Cependant, il arrive que les robots se heurtent à des obstacles et deviennent incapables d'indexer certains documents. Ce sont ces documents qui constituent le web profond. Chris Sherman et Gary Price, experts américains en outils de recherche, distinguent quatre types de web invisible : Opaque Web (certains documents sont trop volumineux pour être entièrement indexés et certaines pages sont mal ou non liées, donc mal ou non référencées) ; Private Web (certaines pages sont interdites de référencement car l'auteur les protège en insérant un fichier robot.txt dans leur code) ; Proprietary Web (l'accès à certaines pages est protégé par un mot de passe) et, enfin, Truly Invisible Web (formats de fichiers non reconnus par les moteurs de recherche, etc.). Des informations de qualité Le web profond "couvre tous les secteurs d'activités principaux", indique Christophe Asselin (photo). On y trouve des catalogues (sites marchands, bibliothèques...), des sites d'annonces, mais aussi des bases de données spécialisées. Armelle Thomas*, consultante indépendante en information et documentation, explique quant à elle que ces bases "concernent soit le monde académique, en répertoriant des données scientifiques, des articles de revues, [...] soit le monde de l'entreprise, en donnant accès [...] à des études de marché, des articles de presse économique ou des bilans". D'une manière générale, la qualité du web invisible est considérée comme trois fois supérieure à celle du web visible. La notion de qualité, ici, se rapporte à la pertinence de l'information. En effet, contrairement au web de surface, le web profond est majoritairement constitué de sites spécialisés et permet souvent une recherche très ciblée. Des outils nombreux et souvent gratuits Selon Christophe Asselin (photo), l'utilisation de cette ressource dans la veille stratégique permet d'accéder à un "contenu plus qualifié, plus précis, plus vérifié, plus sectorisé et plus vaste". Les outils qui permettent d'exploiter le web profond sont nombreux, mais on peut les regrouper en quatre catégories : les bases de données et serveurs de banques de données ; les répertoires sélectifs (sites sélectionnés de manière qualitative et portails spécialisés) ; les outils et moteurs de recherche ou méta-moteurs spécialisés (qui interrogent simultanément plusieurs outils tout en étant spécialisés dans une thématique) ; les bibliothèques en ligne. La plupart de ces outils sont gratuits : à peine 1,1 % des sites du web invisible proposent un contenu entièrement payant. Il s'agit, entre autres, des grands serveurs de banques de données tels que Dialog, Factiva ou encore Lexis Nexis.
Les principaux outils de recherche permettant d'accéder au web invisible
Type d'outil | Nom de l'outil | Principales caractéristiques | Secteur concerné | Type d'accès : | Répertoires sélectifs | | Répertoire basé sur 23 chaînes thématiques 57 000 sujets | Outil généraliste | Gratuit | | 865 bases de données réparties en 100 catégories | Outil généraliste | Gratuit | Outils et moteurs de recherche
| | Se connecte à plus de 1 000 répertoires et bases de données | Outil généraliste | Gratuit | | Se connecte à plus de 200 000 000 de pages web | Science | Gratuit | | Se connecte à plus de 1 000 moteurs généralistes ou spécialisés | Outil généraliste | Gratuit | Portails horizontaux
| | Plus de 3 000 outils de recherche | Outil généraliste | Gratuit | Serveurs de banques de données
| | Plus de 700 bases de données | Science, ingénierie, économie... | Payant | | 8 000 publications, 200 000 profils de société | Publications | Payant | | Plus de 35 000 sources indexées | Outil généraliste | Payant |
|
* Armelle Thomas est co-auteur avec Véronique Mesguich du livre "Net-recherche : Le guide pratique pour mieux trouver l'information utile", Éditions ADBS (sortie début mars 2006). Lire aussi : Veille sur Internet : les outils pour affiner la recherche d'informations
|