Mercredi 18 octobre 2017
NASDAQ : 6623.6567 0.3477   nasdaq0.01 %
RECHERCHE
OK
 
NEWSLETTER
newsletter
Abonnez-vous gratuitement
à notre newsletter
hebdomadaire - Cliquez ICI
Indexel
  • DOSSIERS
  • PRATIQUE
pub Publicité
 

MANAGEMENT

Exploiter les richesses du web invisible

Imprimer Envoyer à un ami Contacter la rédaction
Par Mong Linh LE le 01/02/2006 - indexel.net
 

La taille du web invisible - documents mal ou non indexés par les moteurs de recherche conventionnels - serait jusqu'à 550 fois supérieure à celle du web visible. Savoir l'exploiter permet de bénéficier d'une veille plus efficace.

 

Le 3 janvier dernier, Digimind, éditeur français de logiciels de veille stratégique, publiait un livre blanc intitulé "Découvrir et exploiter le web invisible". Dans ce document, Christophe Asselin, consultant et co-auteur, dévoile comment le web invisible peut devenir un outil indispensable à une veille plus efficace. Défini comme l'ensemble "des documents web mal ou non indexés par les moteurs de recherche généralistes conventionnels", l'étendue de cette source d'information est par définition difficile à évaluer, mais elle serait jusqu'à 550 fois supérieure à celle du web visible ! Le terme web invisible apparaît pour la première fois en 1994. En 2000, la société Brightplanet propose de transformer cette expression en "web profond". En effet, cette partie du web est inaccessible avec des outils traditionnels, mais devient visible si l'on utilise des dispositifs spécialisés (notre tableau). Ainsi, les termes "invisible" et "visible" sont-ils parfois remplacés par "profond" et "de surface".

 

Des documents qui échappent aux robots

 

Les moteurs et les répertoires de recherche traditionnels comprennent des éléments particuliers appelés "robots" qui balayent le web de façon automatique et recensent, dans des index, les données collectées. Cependant, il arrive que les robots se heurtent à des obstacles et deviennent incapables d'indexer certains documents. Ce sont ces documents qui constituent le web profond. Chris Sherman et Gary Price, experts américains en outils de recherche, distinguent quatre types de web invisible : Opaque Web (certains documents sont trop volumineux pour être entièrement indexés et certaines pages sont mal ou non liées, donc mal ou non référencées) ; Private Web (certaines pages sont interdites de référencement car l'auteur les protège en insérant un fichier robot.txt dans leur code) ; Proprietary Web (l'accès à certaines pages est protégé par un mot de passe) et, enfin, Truly Invisible Web (formats de fichiers non reconnus par les moteurs de recherche, etc.).

 

Des informations de qualité

 

Le web profond "couvre tous les secteurs d'activités principaux", indique Christophe Asselin (photo). On y trouve des catalogues (sites marchands, bibliothèques...), des sites d'annonces, mais aussi des bases de données spécialisées. Armelle Thomas*, consultante indépendante en information et documentation, explique quant à elle que ces bases "concernent soit le monde académique, en répertoriant des données scientifiques, des articles de revues, [...] soit le monde de l'entreprise, en donnant accès [...] à des études de marché, des articles de presse économique ou des bilans". D'une manière générale, la qualité du web invisible est considérée comme trois fois supérieure à celle du web visible. La notion de qualité, ici, se rapporte à la pertinence de l'information. En effet, contrairement au web de surface, le web profond est majoritairement constitué de sites spécialisés et permet souvent une recherche très ciblée.

 

Des outils nombreux et souvent gratuits

 

Selon Christophe Asselin (photo), l'utilisation de cette ressource dans la veille stratégique permet d'accéder à un "contenu plus qualifié, plus précis, plus vérifié, plus sectorisé et plus vaste". Les outils qui permettent d'exploiter le web profond sont nombreux, mais on peut les regrouper en quatre catégories : les bases de données et serveurs de banques de données ; les répertoires sélectifs (sites sélectionnés de manière qualitative et portails spécialisés) ; les outils et moteurs de recherche ou méta-moteurs spécialisés (qui interrogent simultanément plusieurs outils tout en étant spécialisés dans une thématique) ; les bibliothèques en ligne. La plupart de ces outils sont gratuits : à peine 1,1 % des sites du web invisible proposent un contenu entièrement payant. Il s'agit, entre autres, des grands serveurs de banques de données tels que Dialog, Factiva ou encore Lexis Nexis.

 

Les principaux outils de recherche permettant d'accéder au web invisible
 

Type d'outil
Nom de l'outil
Principales caractéristiques
Secteur concerné
Type d'accès :
Répertoires sélectifs
Répertoire basé sur 23 chaînes thématiques
57 000 sujets
Outil généralisteGratuit
865 bases de données réparties en 100 catégoriesOutil généralisteGratuit
Outils et moteurs de recherche
Se connecte à plus de
1 000 répertoires et bases de données
Outil généralisteGratuit
Se connecte à plus de
200 000 000 de pages web
ScienceGratuit
Se connecte à plus de
1 000 moteurs généralistes ou spécialisés
Outil généralisteGratuit
Portails horizontaux
Plus de 3 000 outils de rechercheOutil généralisteGratuit
Serveurs de banques de données
Plus de 700 bases de donnéesScience, ingénierie, économie...Payant
8 000 publications,
200 000 profils de société
PublicationsPayant
Plus de 35 000 sources indexéesOutil généralistePayant

 

* Armelle Thomas est co-auteur avec Véronique Mesguich du livre "Net-recherche : Le guide pratique pour mieux trouver l'information utile", Éditions ADBS (sortie début mars 2006).

 

 
Partager :
 
pub Publicité

CloudStack by IkoulaCloudStack by Ikoula

Cloud Computing : Atouts et freins, acteurs du marché, conseils et témoignages