Retours sur trois jours de tempête

Ce billet constitue un post-mortem d’un incident critique survenu du 4 au 7 mars 2024 . Caractérisé par des ralentissements intermittents et des déconnexions sur l’ensemble des applications de l’Abes, qui ont affecté les établissements du réseau de l’Abes, cet incident a débuté le 4 mars 2024 et a été résolu le 7 mars 2024 à midi.  La cause de l’incident était liée aux scories d’une ancienne configuration de routeur, restées actives sans que l’on en soit conscient. Le redémarrage des machines, notamment des switches, a réactivé ces paramètres, provoquant une redirection alternée de paquets vers un routeur inexistant. Cela a conduit à des « tempêtes réseau » et à des ralentissements importants. 

Symptômes et impacts de l’incident 

Suite à la maintenance effectuée par l’Abes sur son infrastructure les 2 et 3 mars 2024, des ralentissements intermittents ont été observés sur le réseau du SI, provoquant des lenteurs d’accès, voire des déconnexions, sur l’ensemble des applications de l’Abes.

Les utilisateurs ont donc rencontré des difficultés pour accéder aux services en ligne, ce qui a entraîné une perturbation majeure de l’activité. Les tentatives de redémarrage des équipements réseaux n’ayant pas permis de résoudre immédiatement le problème, la période d’indisponibilité des applications a été prolongée.

Causes et solutions 

Après de nombreuses recherches, l’origine de l’incident a été trouvée : elle était liée à une configuration VRRP – Virtual Router Redundancy Protocol (Protocole de Redondance de Routeur Virtuel)  – laissée en place. Le VRRP est un protocole standardisé qui vise à améliorer la haute disponibilité dans un réseau en permettant à plusieurs routeurs de travailler ensemble pour assurer la redondance. Cette double configuration de routeur avait été proposée par Renater en 2020 pour assurer une haute disponibilité à la suite d’une panne. Cependant, après l’installation, cette configuration, qui n’a jamais été testée en conditions réelle, a été jugée trop complexe à maintenir. Elle a donc été supprimée de l’infrastructure de l’Abes l’année suivante. 

Lors du redémarrage du système suite à la maintenance planifiée les 2 et 3 mars, les ports VRRP, normalement désactivés, ont donc renvoyé des paquets sur un routeur qui n’existait plus. C’est cette redirection intermittente qui a entraîné des « tempêtes réseaux » caractérisées par des ralentissements importants.

L’analyse de l’incident s’est basée sur les temps de réponse de la commande « ping ». Les résultats des « ping » en interne étaient excellents, tandis que les « ping » vers le routeur ou l’extérieur étaient par moment fortement dégradés. La résolution de l’incident a finalement été trouvée en identifiant et en éliminant des scories de la configuration VRRP et en redémarrant les interfaces physiques du routeur. Cette action a permis d’instaurer une configuration fonctionnelle, bien que cela ne corresponde pas au comportement attendu des équipements modernes qui devraient normalement prendre en charge les configurations à chaud. 

En résumé, l’incident a mis en évidence l’importance d’une gestion prudente des configurations réseau, en particulier lors de modifications majeures ou après des périodes d’inactivité prolongée. Un contrôle régulier et une maintenance proactive peuvent contribuer à prévenir de tels incidents. Pour limiter les risques, il est également prudent de réduire au maximum les opérations de la maintenance effectuées le jour J. De même, il est important de s’appuyer sur l’assistance externe pour certaines tâches spécifiques. 

Laisser un commentaire

Aller au contenu principal