Category Archives: Politics

15 Years of News – Analyzing CNN Transcripts: Visualizing Topics

chart-scatter

High-level visualization of topics in CNN’s corpus

By extracting several topics from our news corpus, we gained a 10,000 feet view of corpus. We were able to outline many trends and events, but it took a bit of digging. This article will illustrate how the topics relate each to one another. We’ll even throw a bit of animation to take a look back the last 15 years.

When we extracted the topics from the corpus, we also found another way to describe all the news snippets and words. Instead of seeing a document as a collection of words, we could see it as a mixture of topics. We could also do the same thing with topics: every topics is a mixture of words used in its associated fragments.

Continue Reading

15 Years of News – Analyzing CNN Transcripts: Topics

High-level time-based visualization of topics in our corpus

High-level visualization of topics in CNN’s corpus

As we saw in the previous article, temporal analysis of individual keywords can be very interesting and uncover interesting trends, but it can be difficult to get an overview of a whole corpus. There’s just too much data.

One solution would be to group similar subjects together. This way, we could scale down a corpus of 500,000 keywords to a handful of topics. Of course, we’ll be losing some definition, but we’ll be gaining a 10,000 feet view of the corpus. In all cases, we can always refer to the individual keywords if we want to take a closer look. Continue Reading

15 Years of News – Analyzing CNN Transcripts: Timelines

Kibana shows that “elections”is a keyword that has a spike every 4 year

With 15 years of CNN transcripts loaded a database, I could now run queries to visualize the occurrences of words – like names – across time. Since I used a textual database name ElasticSearch, I could use Kibana to chart the keywords. Kibana is a good tool to build dashboards, but it’s not really suited to analyze extensively time series because it lacks an easy way to add several search terms on the same chart. Also, it doesn’t easily show percentages of occurrences in a corpus for a giving time period instead of absolute occurrences. This makes Kibana a good tool for a quick look at the data or to debug an issue with our transcript scrapper.

With this in mind, I used Amazon’s DynamoDB database, the HighChart Javascript library and a bit of glue logic to build my own tool to visualize the last 15 years of News!

Continue Reading

15 Years of News – Analyzing CNN Transcripts: Retrieving & Parsing

A while back, I saw that the Internet Archive hosted an archive of CNN transcripts from 2000 to 2012. The first thing that came to my mind was that this was an amazing corpus to study. It contained the last 12 years of news in textual form at the same place. I felt that it would be an amazing project to retrieve all the transcript from 2000 to today and someone went already to the trouble of downloading this corpus.

Unfortunately, the data was basically a dump of the transcripts pages from CNN. This isn’t a problem for archival purposes, but for analysis, it would make things a bit difficult. For my new project, it meant that I would need to find a way to download all the transcripts from CNN, parse them and dump them to a database. To make things even more difficult, the HTML from the early 2000s was more about form that function. In other words, the CNN webmasters (in the 2000, web designers or developers didn’t exist, they were webmasters!) would throw something that would render in Internet Explorer or Netscape Navigator and call it a day. There was no effort in making the layout and content organized.

Continue Reading

Thèmes abordés sur Twitter durant l’élection provinciale de 2012

quebecois_couvSuite à la visualisation des tweets publiés durant la grève étudiante, le professeur Frédérick Bastien de l’Université de Montréal m’a approché afin de participer à l’ouvrage Les Québécois aux urnes.

J’ai donc rédigé un chapitre traitant des thèmes abordés sur les médias sociaux. L’élément central du chapitre était une visualisation de tous les tweets publiés durant la campagne électorale.

Continue Reading

Distribution du financement politique à Montréal

test

Comme lors des années précédentes, La Presse a conçu une carte du financement politique à Montréal. Les responsables de ces cartes (Cédric Sam, Pierre-André Normandin et Thomas de Lorimier) ont dû composer avec l’absence de données gouvernementales standardisées et contacter chaque parti politique pour obtenir ces données.

Le résultat est très intéressant et ils font preuve d’une très grande générosité en partageant les données recueillies. Les données ouvertes comprennent la latitude et la longitude de chaque don ce qui facilite leur utilisation dans les logiciels GIS comme ArcGIS et Quantum GIS. Je me suis donc amusé ce dimanche à analyser et créer des cartes illustrant la distribution des dons. La carte à gauche illustre les concentrations de financement pour chaque parti. Par exemple, il y a une concentration de financement pour Projet Montréal sur le Plateau, Villeray et Hochelaga.

Cliquez sur le lien à droite pour lire (et voir!) la suite >>

Continue Reading

Géolocalisation de #qc2012

On a beaucoup parlé des utilisateurs des médias sociaux durant la dernière campagne électorale (#qc2012 pour les intimes). Qui sont-ils? D’où viennent-ils? De quoi parlent-ils?

Les analyses de contenu peuvent répondre à certaines de ces questions, mais pour répondre à la question « où sont-ils? », il faut soit procéder par sondage ou utiliser les données que Twitter nous offre si gentiment. Si les utilisateurs de Twitter activent la fonction de localisation, il est possible de savoir où le “twitteur” est situé. Il suffit ensuite d’importer les données dans un logiciel de visualisation géographique ou Google Tables pour obtenir une carte interactive.

Continue Reading

IndiceQuebec: Perception de la campagne par les médias sociaux

Avec mon collaborateur Eric Nguyen, nous avons créé une petite plateforme d’analyse des tweets politiques Québécois, soit IndiceQuebec.com Cette plateforme intercepte les micromessages contenant certains mots-clés comme #polqc ou #qc2012. Les messages sont ensuite stockés dans une base de données, puis analysés à l’aide de multiples modules. En date d’aujourd’hui, soit presque un mois après les élections, 1,5 millions de tweets sont stockés dans la base de données.

Le module le plus intéressant est celui analysant la teneur du message et détermine si le message est plutôt positif ou négatif. Ce module repose sur un modèle bayésien (même principe qu’un filtre de polluriels) qui détermine à l’aide d’un modèle entraîné au préalable sur un échantillon de tweets. Le modèle est ensuite appliqué sur l’ensemble des tweets au fur à mesure que les micromessages sont emmagasinés dans la base de données.

Continue Reading

#debatQC – Analyse

Le débat des chefs durant la dernière campagne électorale était le premier débat où une quantité significative de personnes ont pu commenter le débat à l’aide des médias sociaux. En utilisant l’engin de récupération des Tweets d’IndiceQuebec, nous avons pu récupérer l’ensemble ou du moins une bonne partie des tweets politiques publiés par les Québécois actifs sur Twitter.

L’image à gauche est une analyse du premier débat à Radio-Canada. La deuxième image (cliquez sur Read more) traite des faces à faces diffusées au réseau TVA.

Continue Reading

Visualisation de la #GGI – Mise à jour!

Après plus de 100 jours et plusieurs centaines de milliers de tweets, le paysage médiatique et politique de la grève a bien changé. Quelques personnes sur twitter, facebook, par courriel ou de vive voix m’ont suggéré de mettre à jour la première visualisation avec des données plus récentes.

C’est ce que j’ai fait. En cliquant sur l’image, vous devriez obtenir l’image agrandie. Sinon, en cliquant ici, vous pourrez télécharger une version vectorielle en haute-résolution.

J’ai également fait une petite étude sur l’évolution des sujets (extraits algorithmiquement) présents dans les tweets traitant de la grève. On remarque que certains sujets sont transitoires et d’autres plus permanents.

Continue Reading

Visualisation – Structure d’influence du conflit étudiant

Depuis plus de 100 jours, les étudiants et le gouvernement s’affrontent dans les médias traditionnels et les médias sociaux. Les médias sociaux nous offrent la chance d’analyser l’opinion publique sans passer par de coûteux sondages. Évidemment, cette méthode comporte des biais. Par exemple, les individus plus politisés sont bien plus présents sur les médias sociaux. Néanmoins, les médias sociaux demeurent une façon extrêmement intéressante d’analyser les mouvements sociaux à un niveau très désagrégé, soit au niveau des individus.

L’infographie précédente caractérisait le contenu des tweets, celle-ci s’attarde plutôt à la structure des interactions entre les individus. Comme dans l’infographie précédente, un histogramme illustre le nombre de tweets publiés par jour selon différents mots-clics (soit tous les tweets, #manifencours et #casseroles). Il est important de mentionner que les histogrammes sont normalisés, c’est-à-dire que pour chaque histogramme, la valeur maximale est utilisée pour pondérer chaque graphe. Cette méthodologie permet d’illustrer efficacement les variations de chaque série.

Une version haute-résolution en format PDF est disponible ici.

Continue Reading

Visualisation des tweets de la grève étudiante

Peu importe l’opinion que l’on peut avoir sur la grève, il n’en demeure pas moins qu’elle doit être la grève la plus “tweeté” de l’histoire québécoise. Il s’agit donc d’une chance inégalée d’analyser ce mouvement social.

J’ai donc conçu cette petite infographie à l’aide de tweets que j’ai capturés. J’ai utilisé les hashtags suivants pour intercepter les tweets ayant comme sujet la grève: #ggi #non1625 et #22mar.

Il est possible de télécharger une version PDF en haute résolution de cette infographie [en cliquant ici].

Continue Reading

Mapping Political Financing in Montréal

Using the data cleaned and released by Cedric Sam and Thomas de Lorimier (available on Cyberpresse), I geocoded the data and applied a density map function. The map shows interesting financial patterns in Montréal for the Bloc Québecois and for the Liberal Party of Canada. I’ve chosen those two parties since they have a strong historical influence in Montréal. As we can see on the map, the western part of Montréal is clearly Liberal while the east is more aligned with the Bloc Québécois.

The most interesting clusters are on both sides of Mount Royal. One side, situated in Westmount, contributes noticeably to the PLC while the other side, in Outremont, donates more to the Bloc Québec. To anybody living in Montréal, it’s hardly a surprising fact, but I think it’s nice to see it on a map.

Content Analysis of the Leaders’ English Debate

Le débat des chefs offre l’occasion de faire des analyses de contenus très intéressantes. En effet, les politiques des partis et les opinions des chefs sont condensées et distillés à l’extrême. Il est donc possible de brosser un tableau impressionniste des préoccupations canadiennes (ou du moins, celle des chefs). Malheureusement, la transcription du débat francophone n’est pas disponible; alors, l’analyse portera sur le débat anglophone.

The leaders’ debate is a golden opportunity to measure the Canadian political landscape as the primary talking points of the leaders and their parties are condensed into a manageable size. Using the transcript of the debate, I used a co-word analysis to try to extract the gist of the debate. I think the resulting maps are interesting and can shed light on current political trends.

Continue Reading

Legislative Explorer | Multidimensional Vote Explorer

Less visually striking than my last project, this visualization shows the voting patterns of Canadian Members of Parliament. It uses a Principal Component Analysis (or PCA) transformation to convert the multidimensional voting record of each MP to a 2D (or Cartesian) form.

Each point on the chart represents an MP. The color of every MP follows their party affiliation. They are tightly clustered because of party discipline :  in Canada, MPs normally vote in accordance to directions given by the Prime Minister.

Continue Reading