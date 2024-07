La panne survenue au petit matin du 8 juillet 2022 a duré plus de 24 heures et a touché plus de 12 millions de clients.

Un rapport indépendant sur la panne de Rogers en 2022 indique que de meilleures protections et des canaux de communications de rechange auraient pu permettre à l’entreprise d’empêcher les problèmes de survenir, ou à tout le moins d’y mettre fin plus tôt.

Rosa Saba La Presse Canadienne

Le rapport remis au Conseil de la radiodiffusion et des télécommunications canadiennes (CRTC) affirme que depuis la panne, l’entreprise de télécommunications a mis en œuvre les changements nécessaires pour traiter la cause de la panne et améliorer la résilience et la fiabilité du réseau.

Dans une lettre distincte publiée jeudi sur son site internet, le CRTC a confirmé que Rogers avait également mis en œuvre toutes les recommandations supplémentaires du rapport.

La panne survenue au petit matin du 8 juillet il y a deux ans a duré plus de 24 heures et a touché plus de 12 millions de clients.

Une erreur de configuration lors de la mise à niveau du réseau a entraîné un flot de données vers les routeurs du réseau central, qui sont tombés en panne, selon le résumé du rapport de Xona Partners mis en ligne jeudi.

La panne du réseau aurait pu être évitée si les routeurs du réseau central avaient été configurés avec une limite de surcharge, indique le rapport.

Une fois la panne survenue, le rapport soutient qu’elle a été prolongée par plusieurs facteurs.

Le centre d’exploitation du réseau Rogers et d’autres sites d’infrastructures ne disposaient pas d’une connectivité redondante provenant d’autres fournisseurs de services, limitant l’accès aux équipements critiques pendant la panne, indique le rapport. Le personnel a dû être physiquement dépêché sur des sites distants afin d’accéder aux routeurs concernés, ce qui a retardé les efforts de rétablissement du service.

De plus, le personnel de Rogers ne disposait pas non plus d’une connectivité de secours provenant d’autres fournisseurs de services et les sites distants ne pouvaient donc pas communiquer entre eux jusqu’à ce que l’entreprise envoie des cartes SIM d’autres fournisseurs de services.

Le rapport indique que le personnel n’avait pas non plus accès initialement à des informations telles que les journaux d’erreurs des routeurs et a pris 14 heures avant de pouvoir identifier la cause première de la panne. Plusieurs modifications de configuration ont également été apportées ce jour-là. Ces deux facteurs ont contribué au diagnostic erroné de la cause profonde, affirme le rapport.

Les mesures prises par Rogers depuis la panne comprennent la résolution des lacunes critiques révélées par la panne, la séparation du cœur IP de ses réseaux sans-fil et filaires et l’amélioration des processus de gestion des incidents, indique le rapport.

Des mesures pour améliorer la résilience

Le rapport formule sept recommandations sur des mesures supplémentaires que Rogers pourrait prendre pour améliorer la résilience de son réseau.

Parmi les recommandations, qui ont depuis été adoptées par Rogers, figurent que l’entreprise teste l’itinérance d’urgence avec d’autres opérateurs de réseaux mobiles, développe une analyse détaillée des causes profondes des pannes futures et étende la portée des exercices de gestion des incidents.

Rogers a envoyé une lettre au CRTC le 17 janvier décrivant comment l’entreprise a répondu aux recommandations du rapport concernant des mesures supplémentaires.

Dans la lettre du CRTC confirmant que ces mesures supplémentaires ont été mises en œuvre, l’organisme de réglementation a déclaré que d’ici le 4 juillet de l’année prochaine, Rogers devra faire rapport sur la résolution par ces mesures de problèmes de fiabilité et sur les progrès réalisés dans la séparation des réseaux centraux filaires et sans-fil.

Le rapport comprenait également des recommandations à l’intention de tous les opérateurs de réseaux de télécommunications, basées sur les « leçons importantes tirées » de la panne. Il s’agit notamment de la mise en œuvre d’une protection contre les surcharges des routeurs dans le noyau IP et les réseaux de distribution ; de la fourniture d’une connectivité de secours pour le centre d’exploitation du réseau, les sites distants critiques et le personnel critique ; et de la simulation de scénarios de panne du réseau pour découvrir les déficiences.