Ce travail, en plus de la tâche plus routinière d'éliminer les milliards de courriels indésirables d'expéditeurs douteux, c'est celui qu'effectue la petite entreprise montréalaise ZEROSPAM pour ses quelque 1200 clients, dont Cogeco, Transat A.T., Pages Jaunes et Énergir - anciennement Gaz Métro.

Son objectif : confier cette tâche surhumaine à une intelligence artificielle formée par l'apprentissage profond.

Son système actuel, basé sur plus de 3000 règles, filtre tous les jours entre 10 et 15 millions de courriels, avec un taux de succès estimé à 99,96 %. « On est le filtre Brita de l'internet », résume à la blague David Poellhuber, président. Le flux passant par ce filtre est passablement pollué : il estime que 65 % du trafic sur l'internet est constitué de courriels indésirables. Le taux de succès de ZEROSPAM, s'il apparaît impressionnant, signifie tout de même que de 4000 à 6000 pourriels traversent ses filets tous les jours.

UNE SCIENCE EMBRYONNAIRE

Pour atteindre la perfection, on a mis sur pied il y a un an un projet appelant à la rescousse la spécialité montréalaise par excellence, l'apprentissage profond.

En collaboration avec l'incontournable Montreal Institute for Learning Algorithms, dirigé par le professeur Yoshua Bengio, et avec 225 000 $ de subventions fédérales, ZEROSPAM veut remplacer ses milliers de règles par une intelligence artificielle qui apprendrait graduellement à trier le bon grain de l'ivraie.

« Ce qui existe présentement en termes d'intelligence artificielle appliquée au courrier indésirable est embryonnaire : on parle de couches à un neurone, de classifications statistiques, c'est très basique », estime M. Poellhuber. L'élimination du spam, c'est pourtant l'utilisation parfaite de l'apprentissage profond. »

« On s'est dit que c'était incroyable qu'on soit à quelques kilomètres des stars de cette discipline et qu'on n'utilise pas ce potentiel. » - David Poellhuber

Le premier défi en matière d'apprentissage profond est de trouver des jeux de données assez étendus pour entraîner une intelligence artificielle. On pourrait croire qu'il ne s'agissait que d'une formalité pour ZEROSPAM, avec ses millions de courriels filtrés. Erreur. « On avait un échantillon de 20 000 courriels, à moitié légitimes et à moitié indésirables, précise le PDG. Ç'a été notre première confrontation avec la réalité : ça en prend des millions, bien identifiés, avec des métadonnées utilisables. On est dans l'enfance de l'art dans ce domaine. C'est un projet de longue haleine. »

Les premiers résultats augurent bien pour la petite entreprise de 15 employés, précise-t-il. « Jusqu'à maintenant, ça sent bon. Pour nous, ça va devenir un avantage concurrentiel, on est en avant de la parade, là où ça se passe. » On espère avoir un prototype fonctionnel le printemps prochain.

Trois tendances en matière de pourriels

FRAUDE

Baptisé « fraude du président », ce type d'hameçonnage est particulièrement populaire... et efficace. Pendant la visite de La Presse, on a pu avoir un aperçu des fraudes qui avaient été stoppées par le filtre de ZEROSPAM. On imite essentiellement le courriel d'un responsable d'entreprise ou de municipalité pour demander un virement bancaire. « Les fraudeurs sont très malins, ils vont prendre un premier contact, remplacer un "0" par la lettre "O" ou un "1" par un "l". C'est très difficile à intercepter », dit David Poellhuber.

RANÇONGICIEL

Il s'agit ici de tromper le destinataire d'un courriel en le faisant cliquer sur un lien, télécharger un document ou un logiciel pour crypter le contenu de son ordinateur. Pour le décrypter, on demande une rançon, généralement en cryptomonnaie. Selon un rapport de la firme Symantec, on dénombre chaque jour 1643 attaques de ce type au Canada. Des institutions publiques - notamment des services de police ! - ainsi que des milliers d'internautes sont tombés dans le panneau. Les intercepter est une mine d'or pour ZEROSPAM, où on les qualifie de "yummy spams" ("pourriels délicieux"). « C'est avec ça qu'on entraîne notre intelligence artificielle », précise le PDG.

MARKETING DE MASSE

Pour le commun des mortels, il s'agit de la face la plus visible du phénomène des pourriels, celle qui inonde la boîte de réception d'offres de V.I.A.G.R.A ou de rabais de 90 % sur d'obscurs appareils. Selon ZEROSPAM, 65 % du trafic internet est généré par du courrier indésirable, en grande partie lié au marketing de masse. Certains experts évoquent même un taux de 90 %. Il s'agit heureusement des pourriels les plus faciles à intercepter. Le phénomène derrière ces envois groupés est fascinant : il s'agit le plus souvent de l'objectif des pirates informatiques qui, après avoir infecté un ordinateur, vont en faire un « zombie » qui sera utilisé pour les envois.