Avec mon collaborateur Eric Nguyen, nous avons créé une petite plateforme d’analyse des tweets politiques Québécois, soit IndiceQuebec.com Cette plateforme intercepte les micromessages contenant certains mots-clés comme #polqc ou #qc2012. Les messages sont ensuite stockés dans une base de données, puis analysés à l’aide de multiples modules. En date d’aujourd’hui, soit presque un mois après les élections, 1,5 millions de tweets sont stockés dans la base de données.
Le module le plus intéressant est celui analysant la teneur du message et détermine si le message est plutôt positif ou négatif. Ce module repose sur un modèle bayésien (même principe qu’un filtre de polluriels) qui détermine à l’aide d’un modèle entraîné au préalable sur un échantillon de tweets. Le modèle est ensuite appliqué sur l’ensemble des tweets au fur à mesure que les micromessages sont emmagasinés dans la base de données.
Évidemment, cette analyse n’est pas parfaite, car l’engin de classification ne comprend pas le message et utilise des fragments (mots, syllabes, groupes de mots, etc.) pour classifier le message. Ceci signifie que l’engin n’est pas en mesure de détecter le sarcasme ou n’importe quel contenu qui demande un certain contexte ou une forme d’inférence. Certaines études parlent d’un taux d’erreur de 20%. Néanmoins, l’analyse demeure intéressante. De plus, la recherche est très active et certains classificateurs sont plus performants et peuvent détecter et comprendre le sarcasme.
Les autres pages permettent d’afficher les utilisateurs les plus bavards, ceux qui sont le plus retweetés ainsi que les liens les plus populaires. C’est donc une façon facile et rapide pour déterminer qui et quoi est très populaire dans la dernière heure, journée, semaine ou mois.
Il est également possible d’extraire la structure des discussions entre les utilisateurs. En écrivant le nom d’un usager de Twitter, puis en attendant quelques secondes, le réseau d’interaction de l’usager s’affiche. L’utilisateur s’affiche au centre en bleu et ses interlocuteurs (soit les utilisateurs qui ont été mentionnés par lui) sont liés par des liens. Évidemment, le graphe complet pour la plupart des utilisateurs populaires est immense, alors nous avons dû limiter le nombre d’utilisateurs mentionnés à 25 et le niveau à trois. L’image à droite illustre très bien les niveaux.
Évidemment, cette petite plateforme d’analyse touche seulement à une petite partie des analyses possibles avec la montagne de données disponibles dans la base de données d’IndiceQuebec. Néanmoins, l’outil a su intéresser plusieurs médias québécois:
Article de Florent Daudens de Radio-Canada sur IndiceQuebec:
http://www.radio-canada.ca/sujet/elections-quebec-2012/2012/08/23/024-analyse-twitter-campagne.shtml
Reportage vidéo de Tristan Péloquin de Cyberpresse sur l’outil:
http://www.lapresse.ca/videos/201208/24/46-1-87-des-tweets-sur-legault-sont-negatifs.php/eba9e518ca134ffa9e5c7ab824c43f76
Interview à la radio de Radio-Canada de Québec avec Claude Bernatchez:
http://www.radio-canada.ca/emissions/premiere_heure/2011-2012/chronique.asp?idchronique=240056
Mention d’IndiceQuébec et analyse effectuée à l’aide des données de l’outil:
http://www.ledevoir.com/politique/quebec/358331/les-doigts-agiles-des-twitteurs-quebecois-ont-fait-leur-marque
Le Patrouilleur du Net, Dominic Arpin parle de nous:
http://www.985fm.ca/audioplayer.php?mp3=143275
Pierre-Olivier Fortin du Soleil parle d’IndiceQuebec:
http://www.lapresse.ca/le-soleil/dossiers/elections-quebecoises/201208/28/01-4569034-elections-20-28-aout-2012.php
Si vous avez vu d’autres mentions, faites-nous signe!