Jeudi 24 mai 2012
NASDAQ : 2850.12 11.04   nasdaq0.39 %
RECHERCHE
OK
 
NEWSLETTER
newsletter
Abonnez-vous gratuitement
à notre newsletter
hebdomadaire - Cliquez ICI
Indexel
  • DOSSIERS
  • PRATIQUE
pub Publicité
 

ACTUALITES

L'ISO standardise la mémoire du web

Imprimer Envoyer à un ami Contacter la rédaction
Par Alain Bastide le 15/10/2009 - indexel.net
 

Le format de fichiers WARC va permettre d'archiver des pages web accompagnées de tous les événements liés à leur publication, modification et retrait. Une avancée technique qui bénéficiera aux outils de gestion de contenu et aux internautes.

 

Surabondante, l'information présente sur la Toile est aussi très volatile. Une page ou un site entier peut disparaître d'une seconde à l'autre sans que les internautes ou les salariés de l'entreprise ne soient prévenus. Une situation qui aboutit à la perte d'innombrables données, certaines ayant parfois une valeur juridique.

L'International Standard Organisation (ISO) s'est donc penchée sur ce problème et propose un nouveau format de fichier - Web Archive (WARC) - pour aider les entreprises à sauvegarder l'intégralité de leur production web. L'ISO souhaite ainsi que « l'archivage du web devienne partie intégrante des activités courantes des organismes de préservation du patrimoine et d'autres institutions », explique Clément Oury, membre du comité technique ISO/TC 46.

La norme ISO 28500:2009 (WARC) s'assure que tous les événements liés à la publication, la modification et le retrait d'une page web sont consignés dans un seul fichier, contenant également la ou les page(s) en question. Techniquement, WARC s'appuie sur le format de fichier ARC, mis au point par l'Internet Archive en 1996. Il étend ARC en y ajoutant la possibilité de stocker des entêtes HTTP, des métadonnées et des doublons.

Grâce à ce nouveau standard, les éditeurs de logiciels vont pouvoir ajouter la gestion d'un historique à leurs serveurs web et à leurs outils de gestion de contenu (CMS). « Plusieurs applications sont déjà conformes à WARC, notamment le robot d'indexation Heritrix, les outils WARC pour la gestion et l'échange des données, la Wayback Machine, NutchWAX et autres outils de recherche pour l'accès », ajoute Clément Oury.

LIRE AUSSI
 
Partager :
LIRE AUSSI
 
pub Publicité

Cloud Computing : Atouts et freins, acteurs du marché, conseils et témoignages