Depuis plus de 100 jours, les étudiants et le gouvernement s’affrontent dans les médias traditionnels et les médias sociaux. Les médias sociaux nous offrent la chance d’analyser l’opinion publique sans passer par de coûteux sondages. Évidemment, cette méthode comporte des biais. Par exemple, les individus plus politisés sont bien plus présents sur les médias sociaux. Néanmoins, les médias sociaux demeurent une façon extrêmement intéressante d’analyser les mouvements sociaux à un niveau très désagrégé, soit au niveau des individus.
L’infographie précédente caractérisait le contenu des tweets, celle-ci s’attarde plutôt à la structure des interactions entre les individus. Comme dans l’infographie précédente, un histogramme illustre le nombre de tweets publiés par jour selon différents mots-clics (soit tous les tweets, #manifencours et #casseroles). Il est important de mentionner que les histogrammes sont normalisés, c’est-à-dire que pour chaque histogramme, la valeur maximale est utilisée pour pondérer chaque graphe. Cette méthodologie permet d’illustrer efficacement les variations de chaque série.
Une version haute-résolution en format PDF est disponible ici.
La première étape a été de récupérer tous les tweets traitant de la grève (ou conflit étudiant, selon la nomenclature du jour). Pour ce faire, tous les tweets contenant les mots-clics #ggi, #manifencours, #casseroles et #non1625 ont téléchargés. En tout, plus de 400 000 tweets ont été téléchargés, mais après un travail de déduplication (certains tweets sont très semblables), un peu plus de 200 000 tweets uniques ont été identifiés.
Comme ces tweets sont une source d’information intéressante sur la grève et que seulement une portion des données ont été utilisées, les données sont disponibles gratuitement. Si vous utilisez ces données, veuillez mentionner la source de celles-ci (moi!).
Tweets bruts : contient un identifiant, la date de publication (parfois invalide, voir avec Twitter!), le type de contenu, le contenu, le nom de l’auteur, le nick de l’auteur ainsi que le lien permanent du tweet.
Mots-clics : contient les #hashtags inclus dans chaque tweet. L’identifiant est relié (join, en sql) à l’identifiant des tweets du premier fichier.
Destinataires : contient les @destinataires des tweets. Encore une fois, l’identifiant est lié à chaque tweet.
À l’aide des données téléchargées et nettoyées, un réseau identifiant les individus ainsi que leurs interactions a été construit. Un petit script a également été conçu afin d’identifier les destinataires des tweets des individus. Celui-ci permet de construire des réseaux contenant tous les individus et leurs conversations. Ce graphe contient plus de 21 000 nœuds (individus) et 55 000 liens pondérés (conversations distinctes) ou 235 000 liens unitaires (conversations totales).
Le fichier complet du graphe est disponible ici (le logiciel Gephi est nécessaire pour ouvrir le fichier). Contrairement aux données disponibles plus haut, le fichier contient les données à jour jusqu’au 28 mai 2012.
La taille des nœuds est proportionnelle à l’influence des individus (inférée à l’aide du nombre total de retweets qu’ils ont eus). La taille des liens est proportionnelle au nombre de conversations entre les deux individus.
La couleur de chaque nœud dépend de la communauté d’appartenance de celui-ci. La communauté est identifiée à l’aide d’un algorithme de groupement. Celui-ci permet de regrouper les nœuds (dans ce cas, les individus) qui communiquent ensemble (réciproquement ou non).
Des réseaux où seulement les individus les plus influents/présents sont téléchargeables ci-bas:
Tous les mots-clics : fichier pdf
#manifencours : fichier pdf ou fichier Gephi
#casseroles : fichier pdf ou fichier Gephi
Super job
Du beau boulot.
Fascinant! Quel travail de moine. Génial!
Faites vous de l’analyse sociosemantique des donnees, ou encore purement “sociometrique” ou seulement de la visualisation ? Jolis graphes.
Merci! Mon métier est un joyeux mélange des trois, mais habituellement on travaille sur des sujets plutôt scientifiques plutôt que politiques. Nous évaluons la performance des universités/institutions de recherche.
Cette fois-ci c’était pour me faire plaisir, alors l’analyse est plus sommaire.