Quatre cent millions de tweets: c'est la gigantesque somme de documents qu'avale chaque jour la vénérable bibliothèque du Congrès américain, la plus grande du monde en nombre d'ouvrages, qui posent d'immenses défis de stockage et d'exploitation.

Tous les messages de 140 caractères diffusés publiquement sur le réseau social depuis sa création en mars 2006 - 170 milliards de messages à ce jour ! - sont archivés électroniquement mais encore inaccessibles, selon l'institution de Washington, qui vient de publier un état des lieux de cet archivage d'un genre nouveau.

Parmi les messages sauvegardés pour la postérité figurent le premier jamais publié par Twitter, signé de l'un de ses co-fondateurs, Jack Dorsey, ou encore celui de Barack Obama annonçant sa première élection à la présidence des États-Unis en 2008 («Nous venons d'écrire l'histoire. Merci»).

Mais contrairement aux archives traditionnelles ou même numériques de pages internet, celles de Twitter arrivent en flux continu, grossissent chaque jour et de plus en plus vite. Les tweets sont très variés, entre les messages originaux, les vrais et les faux re-tweets. Et ce, dans toutes les langues.

La bibliothèque, créée il y a plus de 200 ans, a reçu jusqu'à 500 millions de tweets par jour en octobre dernier, quand elle n'en héritait que de 140 millions par jour en février 2011, après avoir signé un accord avec le réseau social, qui lui a fait "don" de ses tweets via une petite société du Colorado, Gnip. Et le cadeau pèse lourd: plus de 133 000 gigaoctets.

L'institution ne va cependant pas archiver les tweets effacés ou protégés, anticipant des critiques sur la vie privée. En outre, elle n'autorise l'accès aux tweets que 6 mois après leur publication --le temps d'éventuellement les effacer...

Pour le stockage, la tâche est délicate quand il y a un «peak» de tweets sur un événement particulier, comme lors du tsunami au Japon en mars 2011, qui avait généré des milliers de messages par seconde, selon le directeur opérationnel de Gnip, Chris Moody.

Journaux du XVIIIe siècle

Mais c'est moins le stockage que l'exploitation des données qui pose problème.

Car «la technologie pour que les chercheurs accèdent à ces données est à la traîne derrière (celle) qui permet de les produire et de les distribuer», souligne l'institution. Et là «on ne peut pas mettre seulement trois ingénieurs», reconnaît lui-même le patron de Twitter Dick Costolo, cité par la bibliothèque.

En outre, «cela suppose une indexation pertinente» quand les informations des tweets portent moins sur leur contenu que sur leur localisation, leur date, l'application utilisée, ou le nombre de «followers», précise Louise Merzeau, qui anime en France des Ateliers sur l'archivage du web pilotés par l'Institut national de l'audiovisuel (Ina).

À ce jour, la Bibliothèque n'est pas en mesure de répondre aux demandes de chercheurs du monde entier qui l'ont sollicitée depuis le début de cet archivage en 2010, et qui travaillent sur des sujets aussi variés que le journalisme-citoyen, les taux de vaccinations ou les prévisions boursières.

Faire une seule recherche parmi les données de 2006-2010 prendrait jusqu'à 24 heures, un délai inadapté selon la Bibliothèque qui affirme avoir besoin, pour être plus efficace, de «centaines, voire de milliers, de serveurs». Une solution très coûteuse pour l'institution publique, qui envisage de faire appel au secteur privé.

Mais quel est l'intérêt de plonger à corps perdu dans ces millions de tweets? «Ils nous informent sur la culture dans laquelle ils ont été écrits», à l'instar des journaux du XVIIIe siècle, qui circulaient parmi la famille et les amis, estime Lee Humphreys, professeur de communication à l'université Cornell à Washington DC.

Mais les tweets, plus faciles d'accès, sont paradoxalement «plus difficiles à trier», souligne-t-elle. «On ne sait pas non plus qui a lu les tweets» à la différence des destinataires des journaux, ajoute l'universitaire.

À défaut d'accéder immédiatement aux archives du Congrès, chaque utilisateur de Twitter pourra bientôt archiver ses propres tweets, selon une nouvelle option lancée par le réseau en décembre et en cours de généralisation.