L'université de Twente, dans l'est des Pays-Bas, et un institut de langue et culture néerlandaises ont lancé lundi sur internet un programme capable d'évaluer l'âge et le sexe d'un utilisateur en fonction de ses publications sur le réseau social Twitter, a-t-on appris auprès de l'université.

Sur la base de l'analyse de près de 3000 comptes Twitter dont les utilisateurs ont été identifiés, les chercheurs ont établi des listes de mots ou suites de mots correspondant à une tranche d'âge ou à un sexe particulier, a expliqué à l'AFP Dong Nguyen, doctorante en informatique à l'université de Twente, qui a participé au projet.

Seul le contenu des tweets a été pris en compte dans l'analyse, et non l'image du profil par exemple, a-t-elle assuré.

Sur le site internet lancé lundi, il suffit d'entrer son nom d'utilisateur et le programme évalue ensuite l'âge et le sexe en comparant vos 200 derniers tweets avec la base de données établie précédemment.

L'institut Meertens a apporté au projet son expertise linguistique tandis que l'université a apporté la connaissance informatique, notamment en matière de computation.

«Pour ce qui est de distinguer les hommes des femmes, c'est en fait très très stéréotypé», a assuré Mme Nguyen. Sur le site tweetgenie.nl (littéralement «le génie des tweets»), plusieurs exemples sont donnés: les hommes utilisent souvent les mots «football» et «bière» tandis que les femmes utilisent «ongles» et «hihi».

«Quant à l'âge, les jeunes parlent plus souvent d'eux-mêmes et utilisent beaucoup d'émoticônes tandis que les personnes plus âgées utilisent des mots et des phrases plus longues», a ajouté la même source.

Le programme a une marge d'erreur moyenne de 4 ans, mais celle-ci est beaucoup plus petite pour les jeunes utilisateurs et plus grande pour les utilisateurs plus âgés.

«On remarque que le langage des utilisateurs est plus uniforme à partir d'environ 35 ans», a soutenu Mme Nguyen: «il y a par exemple beaucoup plus de différences entre un utilisateur de 15 ans et un utilisateur de 20 ans qu'entre un utilisateur de 45 ans et un de 55 ans».

Le programme n'est actuellement en mesure d'analyser que les tweets en langue néerlandaise, mais Dong Nguyen a indiqué que l'équipe ayant planché sur le projet souhaite adapter le programme à d'autres langues et à d'autres réseaux sociaux tels que Facebook, notamment.