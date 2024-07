Il était 3 h du matin le 19 juillet quand le téléphone a sonné chez Tyson Morris. Les trains et les bus d’Atlanta devaient se mettre à rouler dans deux heures, mais tous les systèmes étaient en panne, affichant l’« écran bleu de la mort ».

« C’est l’appel qu’un chef des TI espère ne jamais recevoir », explique Tyson Morris, directeur des technologies de l’information (TI) du réseau de transports en commun d’Atlanta. « Je me suis levé d’un bond, ma femme a cru que quelqu’un était mort, elle m’a demandé ce qui se passait. »

M. Morris s’est empressé de mobiliser en urgence son équipe de 130 personnes. Était-ce une cyberattaque ? Un sabotage de la part d’un employé ? Durant des heures, ils ont cherché en vain.

Une panne débilitante

La panne, causée par une mise à jour ratée de la société de cybersécurité CrowdStrike, était le genre de panne que les équipes de TI anticipent en espérant que ça n’arrive jamais. Environ 8,5 millions de systèmes Windows ont planté, paralysant hôpitaux, compagnies aériennes, centrales 911 partout dans le monde. Les assureurs s’attendent à payer plus de 1 milliard aux entreprises assurées, et les sociétés du classement Fortune 500 devraient perdre 5,4 milliards en revenus.

La panne a rendu le travail difficile, voire impossible pour beaucoup de gens. Les équipes de TI, elles, ont besogné durant de longues heures, certaines passant une nuit blanche pour relancer les systèmes durant la fin de semaine. La panne a aussi révélé des vulnérabilités : des leçons ont été apprises en vue d’éventuelles interruptions futures.

PHOTO KIYOSHI OTA, ARCHIVES BLOOMBERG Des milliers de « TI », des travailleurs en informatique, ont travaillé dans une atmosphère fébrile durant la panne du 19 juillet. CrowdStrike a envoyé un dépannage aux utilisateurs, mais il fallait l’installer manuellement dans chaque système.

« Je n’ai jamais vu un tel niveau de stress », dit M. Morris, qui travaille dans le secteur depuis plus de 20 ans. « Chaque seconde comptait. »

Une installation manuelle

La panne a sorti de l’ombre le personnel en TI, observe Eric Grenier, analyste en cybersécurité chez Gartner, une société d’études de marché. CrowdStrike a envoyé un dépannage aux utilisateurs, mais il fallait l’installer manuellement dans chaque système. M. Grenier se souvient d’une seule autre panne massive de même ampleur, une mise à jour boguée de McAfee en 2010.

Nos rapports font état de centaines de milliers d’appareils remis en marche durant la fin de semaine ; c’est énorme. Les TI ont été les superhéros dans cette histoire. Eric Grenier, analyste en cybersécurité chez Gartner

Sur le terrain, c’était l’enfer. Kyle Haas, ingénieur système pour la société d’informatique Mirazon à Louisville, a passé vendredi à sillonner la ville pour remettre ses clients en ligne. Dans l’auto, entre les clients, il enfilait courriels et appels téléphoniques pour en aider d’autres. Pendant neuf heures d’affilée, M. Haas n’a pas arrêté.

« J’ai sauté mon café ce matin-là », raconte-t-il. Il s’est réveillé avec des courriels et des messages paniqués de clients désemparés. « Il fallait traiter autant de problèmes que possible. Tout était à réparer. »

Ç’aurait pu être pire

L’équipe de M. Haas – une quarantaine de personnes – a passé 12 heures à reconnecter tous les clients, dit-il. Cette grosse journée a été intense, mais le problème était purement technique et relativement facile à régler. Au moins, il n’a pas eu à lutter contre des cyberpirates ou à récupérer des données perdues, ce qui est fréquent lors de cyberattaques au rançongiciel ou de pannes de système.

Il est particulièrement fier d’avoir aidé une usine de filtration d’eau qui était à une heure de passer en mode manuel, ce qui l’aurait empêchée de tester la qualité de l’eau.

PHOTO YUN-HEE KIM, THE WASHINGTON POST Des centaines de milliers d’écrans affichaient l’« écran bleu de la mort » partout dans le monde.

Pour M. Morris, en poste depuis trois mois à Atlanta, la panne a été un choc. Heureusement, le service informatique avait déjà un plan d’urgence, avec une liste de numéros de téléphone et des canaux de communication dédiés. Mais l’expérience a quand même été rude. Morris, qui visitait sa famille au Tennessee, a sauté dans l’auto et a roulé vers Atlanta. L’équipe a œuvré 24 heures sur 24, certains membres faisant des journées de 18 heures et dormant au bureau.

Le vendredi à 9 h, les bus et les trains roulaient à nouveau. Lundi matin, tous les ordinateurs portables étaient réparés.

Beaucoup de remerciements

« On avait plein d’encouragements et de remerciements. Ça a beaucoup motivé les troupes », dit M. Morris.

Sur la côte Ouest, la panne a commencé tard jeudi soir, ce qui a donné un peu d’avance pour identifier le problème. Selon Jerry Leever, directeur informatique du cabinet de comptabilité et de fiscalité GHJ à Los Angeles, le courriel d’un sous-traitant informatique a sonné l’alarme à 22 h 30, heure du Pacifique, suivi d’une cascade d’alertes automatiques du serveur.

M. Leever regardait ses courriels en se brossant les dents quand il a vu le message. Il a senti son estomac se nouer.

J’ai eu un moment d’angoisse, puis je me suis rappelé que nous étions formés pour ce genre de situation. On n’a pas vraiment le temps de paniquer, parce qu’il faut tout remettre en ligne au plus vite. Jerry Leever, directeur informatique du cabinet de comptabilité et de fiscalité GHJ

À 3 heures du matin, M. Leever et son équipe avaient reparti les serveurs. Ils avaient programmé l’envoi d’un courriel à 5 h, informant leurs 200 collègues de la situation et expliquant comment régler le problème. Ils avaient aussi préparé une téléconférence à 6 h pour le personnel ayant besoin d’être guidé à chaque étape. Vers 10 h 30, tout le monde était reconnecté, un exploit que M. Leever attribue à leur plan de communication et aux alertes données rapidement.

Tous les informaticiens interviewés par le Washington Post estiment avoir tiré des leçons de la panne CrowdStrike. Celle-ci a rappelé l’importance d’avoir un plan de continuité des activités à jour mettant l’accent sur les procédures de communication, ce qui est compliqué si les systèmes sont en panne. L’incident a aussi amené certains dirigeants à se demander si les mesures d’urgence en place suffisaient pour maintenir les opérations en cas de panne.

PHOTO JASON ALDEN, BLOOMBERG Tous les informaticiens interviewés par le Washington Post estiment avoir tiré des leçons de la panne CrowdStrike. Celle-ci a rappelé l’importance d’avoir un plan de continuité des activités à jour mettant l’accent sur les procédures de communication, ce qui est compliqué si les systèmes sont en panne.

D’autres envisagent de diversifier leurs fournisseurs afin que l’ensemble de leurs activités ne dépendent pas d’un seul s’il a un problème. Certaines organisations réévaluent si leur personnel suffit en cas d’urgence ou s’il faut prévoir de l’aide extérieure engagée d’avance. La panne a aussi rappelé l’importance de stocker à différents endroits les données clés comme les codes de récupération des systèmes cryptés, au cas où un serveur tombe en panne.

M. Leever estime que la panne du 19 juillet est le pire incident de sa carrière. À la fin, quand tout a été réparti, il a filé à son resto-bar préféré et a commandé un hamburger et un Aperol spritz. « Donnez un gros câlin à vos TI, dit-il. C’est bien que les gens soient compréhensifs et bienveillants en temps de crise. »

