Visualisation des tweets de la grève étudiante

Peu importe l’opinion que l’on peut avoir sur la grève, il n’en demeure pas moins qu’elle doit être la grève la plus “tweeté” de l’histoire québécoise. Il s’agit donc d’une chance inégalée d’analyser ce mouvement social.
J’ai donc conçu cette petite infographie à l’aide de tweets que j’ai capturés. J’ai utilisé les hashtags suivants pour intercepter les tweets ayant comme sujet la grève: #ggi #non1625 et #22mar.
Il est possible de télécharger une version PDF en haute résolution de cette infographie [en cliquant ici].
Une fois les tweets récupérés (+ de 23k), j’ai écrit des scripts afin d’extraire les #hashtags ainsi que les @destinataires. J’ai également effectué certaines manipulations afin de les intégrer dans une base de données relationnelle pour faciliter l’analyse. J’ai utilisé Microsoft SQL Server, mais seulement par habitude. Les données publiées sont en format TSV (Tab-separated values), alors MySQL ou PostgreSQL peuvent être utilisés sans problème.
Voici les fichiers contenant les tweets publiés:
greve_tweets: contient un identifiant, la date de publication, le type de contenu, le contenu, le nom de l’auteur, le nick de l’auteur ainsi que le lien permanent du tweet.
greve_hashtags: contient les #hashtags inclus dans chaque tweet. L’identifiant est relié (join, en sql) à l’identifiant des tweets du premier fichier.
greve_destinataires: contient les @destinataires des tweets. Encore une fois, l’identifiant est lié à chaque tweet.
Avec ces fichiers, il est possible de calculer des statistiques sur le débit, le sujet, les destinataires, etc. des tweets sur la grève étudiante.
Le graphique central est un réseau où les noeuds (ou points) représentent un tweet. La disposition des points dépend de la similarité entre chaque tweet. La similarité est calculée selon la distance d’appartenance d’un tweet à son sujet (cluster). Comme il s’agit d’un algorithme automatisé, il est fort probable que plusieurs tweets soient mal classés. De plus, l’algorithme a beaucoup plus de succès avec les textes plus longs et ayant un vocabulaire contrôlé. Néanmoins, je suis quand même assez satisfait du travail effectué par cet algorithme.
greve_clusters: contient l’identifiant, le groupement, la probabilité que ce tweet appartienne au groupement et les coordonnées cartésiennes du tweet.
fond_blanc_tweets_abr: fichier PDF contenant la carte des tweets avec les tweets abrégés.
fond_blanc_tweets: fichier PDF contenant la carte des tweets sans texte.
Les données ainsi que les graphiques sont publiés sous la licence Creative Commons – Attribution. En gros, ça veut dire que vous pouvez faire ce que vous voulez avec l’infographie ainsi que les données, tant que vous mentionnez la source et mon nom.
Merci à Julie Ratté, Maureen Hillman et Véronique Martel pour les idées et les corrections.

10 thoughts on “Visualisation des tweets de la grève étudiante”

  1. Hello Oliver,
    Can I contact you via email or some forum, for some help about callPoppy ..if you have time?
    Thank you
    Anya

  2. Bravo!
    On a hâte de voir l’analyse finale lorsque la grève sera terminée. J’espère que le coeur vous dira de refaire l’exercice. Commentaire constructif: mettre la ligne du temps pour le graphique du bas.
    Et encore une fois bravo. C’est de la science comme on l’aime.

    1. Merci beaucoup!
      J’aimerais bien refaire l’exercice une fois la grève terminée, mais avant je veux m’assurer d’une certaine visibilité vu la quantité de travail à investir.
      Pour la prochaine version, j’aimerais bien identifier et qualifier les intervenants vu que les individus sur twitter ne parlent pas dans le vide, mais interagissent entre eux.

Leave a Reply

Your email address will not be published. Required fields are marked *