Mercredi 18 octobre 2017
NASDAQ : 6623.6567 0.3477   nasdaq0.01 %
RECHERCHE
OK
 
NEWSLETTER
newsletter
Abonnez-vous gratuitement
à notre newsletter
hebdomadaire - Cliquez ICI
Indexel
  • DOSSIERS
  • PRATIQUE
pub Publicité
 

ACTUALITES

Cloud computing : quelles leçons tirer de la panne d'Amazon ?

Imprimer Envoyer à un ami Contacter la rédaction
Par Alain Bastide le 04/05/2011 - indexel.net
 
Tirer-lecons-panne-amazon

L’opérateur de nuages informatiques n’est pas le seul responsable de l’indisponibilité de certains services. Pour réduire leurs coûts, certaines entreprises n’ont pas dupliqué leurs instances sur plusieurs sites géographiques distincts.

 

Les nuages informatiques proposent une très haute disponibilité pour un prix défiant toute concurrence. C'est le cas notamment du service Elastic Compute Cloud (EC2) d'Amazon, un des leaders et pionniers du cloud computing. L'opérateur garantit une disponibilité de 99,95 %, bien plus importante que celle que peuvent obtenir la plupart des entreprises. Une cascade d'incidents – erreur humaine puis bogue logiciel – a cependant handicapé des milliers de site web du 20 au 25 avril dernier. Malgré la répartition des datacenters d'Amazon sur plusieurs zones géographiques, des sites web à fort trafic tels que le service de géolocalisation Foursquare, le site de questions-réponses Quora et le réseau social Reddit n'étaient plus disponibles.

Amazon vient d'expliquer les raisons de cette indisponibilité que de nombreux analystes considèrent comme le premier bogue majeur du cloud computing. Lors d'une opération de routine visant à augmenter les capacités de son service EC2, "le trafic a été redirigé par erreur vers un routeur très lent" explique-t-on chez l'opérateur. "Une des premières étapes de la mise à jour est de router le trafic vers des routeurs redondants dans le réseau de stockage EBS (Elastic Block Storage) primaire pour permettre sa mise à jour. Le routage a été effectué de façon incorrecte, au lieu d'être aiguillé vers des routeurs situés sur le réseau principal, le trafic a été routé sur le plus petit réseau EBS redondant", détaille Amazon dans un document de synthèse de 25 pages qui décortique les raisons de ce plantage.

Cette modification a provoqué une coupure du réseau primaire et du réseau secondaire, laissant les nœuds affectés totalement inaccessibles. "Cette erreur de connexion a impacté les instances EC2 et engendré des temps de latence sur les volumes stockage de EBS dans la région US-EAST-1 du réseau d'Amazon aux États-Unis." À l'échelle des centaines de milliers de services et sites web hébergés par Amazon, cet incident ne devrait pas faire baisser son niveau de disponibilité global (ou Service Level Agreement, SLA) de façon conséquente.

Deuxième enseignement : tous les services ne sont pas tombés. Pour éviter les désagréments qu'ont subis Foursquare et ses acolytes, Amazon leur recommande depuis longtemps de redonder leurs instances entre plusieurs zones géographiques distinctes. Les services et site web qui ont suivi ce conseil n'ont pas eu de problème. En d'autres termes, seuls les services qui n'ont pas répliqué leurs instances sur des zones géographiques distinctes ont été affectés. Ceux qui ont financé ce surcoût n'ont pas été touchés par cette panne localisée dans l'État de Virginie.

La morale de cette histoire ? Le cloud computing permet réellement d'atteindre des taux de disponibilité dignes de la NASA. Encore faut-il que les entreprises acceptent d'en payer le prix.

LIRE AUSSI
 
Partager :
LIRE AUSSI
 
pub Publicité

CloudStack by IkoulaCloudStack by Ikoula

Cloud Computing : Atouts et freins, acteurs du marché, conseils et témoignages