A Map of the Geographic Structure of Wikipedia Topics

Wikipedia Topic 260
Mountains, peaks, summits, etc.

A large number of Wikipedia articles are geocoded. This means that when an article pertains to a location, its latitude and longitude are linked to the article. As you can imagine, this can be useful to generate insightful and eye-catching infographics. A while ago, a team at Oxford built this magnificent tool to illustrate the language boundaries in Wikipedia articles. This led me to wonder if it would be possible to extract the different topics in Wikipedia.
This is exactly what I managed to do in the past few days. I downloaded all of Wikipedia, extracted 300 different topics using a powerful clustering algorithm, projected all the geocoded articles on a map and highlighted the different clusters (or topics) in red. The results were much more interesting than I thought. For example, the map on the left shows all the articles related to mountains, peaks, summits, etc. in red on a blue base map.  The highlighted articles from this topic match the main mountain ranges exactly.

Read on for more details, pretty pictures and slideshows.
Continue reading “A Map of the Geographic Structure of Wikipedia Topics”

Traquer les avions en temps réel avec une antenne et 20$

Google Earth ADS-BUn super-bidouilleur a récemment découvert qu’en utilisant une certaine marque (RTL) de clés USB pour écouter la télé, il était possible de capter et décoder une très grande partie du spectre radio à l’aide d’un petit logiciel (RTL-SDR). Plusieurs appareils, comme le USRP, permettaient déjà de le faire depuis quelques années, mais ces appareils étaient plutôt dispendieux et exigeaient des connaissances plutôt poussées en électronique et en informatique.
Cette fusion entre l’informatique et la radio est connue comme la “Software Defined Radio”, ou la radio définie par logiciel. En d’autres mots, des codes informatiques font le travail qui était auparavant effectué par des circuits spécialisés. Il devient donc possible de décoder des contenus seulement accessibles à certains spécialistes ou à l’aide équipement très dispendieux. Ces contenus incluent les informations émises par les avions, comme le ADS-B. Autrement dit, il devient possible de recevoir la localisation des avions de lignes en temps réel .
Continue reading “Traquer les avions en temps réel avec une antenne et 20$”

Limesurvey: How to import responses from a modified deactivated table

limesurvey_table_code A good number of my consulting clients use the very useful and powerful survey tool Limesurvey. Unfortunately, since version 1.92+, it seems impossible to reimport deactivated responses tables into new response tables if the survey was modified. I’m sure this doesn’t matter for long form surveys and mainly static surveys, but some of my clients use this platform as a dynamic form engine. In that case, forms can and will change over the duration of a project.
To resolve this problem and enable the importation of old responses tables, I’ve written a quick Python script. It uses MySQLdb, but that library should be installed by default on most Linux boxes. The script also requires a MySQL database backend but it should be easily adaptable to other database engines.
Continue reading “Limesurvey: How to import responses from a modified deactivated table”

Géolocalisation de #qc2012

On a beaucoup parlé des utilisateurs des médias sociaux durant la dernière campagne électorale (#qc2012 pour les intimes). Qui sont-ils? D’où viennent-ils? De quoi parlent-ils?
Les analyses de contenu peuvent répondre à certaines de ces questions, mais pour répondre à la question « où sont-ils? », il faut soit procéder par sondage ou utiliser les données que Twitter nous offre si gentiment. Si les utilisateurs de Twitter activent la fonction de localisation, il est possible de savoir où le “twitteur” est situé. Il suffit ensuite d’importer les données dans un logiciel de visualisation géographique ou Google Tables pour obtenir une carte interactive.
Continue reading “Géolocalisation de #qc2012”

IndiceQuebec: Perception de la campagne par les médias sociaux

Avec mon collaborateur Eric Nguyen, nous avons créé une petite plateforme d’analyse des tweets politiques Québécois, soit IndiceQuebec.com Cette plateforme intercepte les micromessages contenant certains mots-clés comme #polqc ou #qc2012. Les messages sont ensuite stockés dans une base de données, puis analysés à l’aide de multiples modules. En date d’aujourd’hui, soit presque un mois après les élections, 1,5 millions de tweets sont stockés dans la base de données.
Le module le plus intéressant est celui analysant la teneur du message et détermine si le message est plutôt positif ou négatif. Ce module repose sur un modèle bayésien (même principe qu’un filtre de polluriels) qui détermine à l’aide d’un modèle entraîné au préalable sur un échantillon de tweets. Le modèle est ensuite appliqué sur l’ensemble des tweets au fur à mesure que les micromessages sont emmagasinés dans la base de données.
Continue reading “IndiceQuebec: Perception de la campagne par les médias sociaux”

#debatQC – Analyse

Le débat des chefs durant la dernière campagne électorale était le premier débat où une quantité significative de personnes ont pu commenter le débat à l’aide des médias sociaux. En utilisant l’engin de récupération des Tweets d’IndiceQuebec, nous avons pu récupérer l’ensemble ou du moins une bonne partie des tweets politiques publiés par les Québécois actifs sur Twitter.
L’image à gauche est une analyse du premier débat à Radio-Canada. La deuxième image (cliquez sur Read more) traite des faces à faces diffusées au réseau TVA.
Continue reading “#debatQC – Analyse”

Visualisation de la #GGI – Mise à jour!

Après plus de 100 jours et plusieurs centaines de milliers de tweets, le paysage médiatique et politique de la grève a bien changé. Quelques personnes sur twitter, facebook, par courriel ou de vive voix m’ont suggéré de mettre à jour la première visualisation avec des données plus récentes.
C’est ce que j’ai fait. En cliquant sur l’image, vous devriez obtenir l’image agrandie. Sinon, en cliquant ici, vous pourrez télécharger une version vectorielle en haute-résolution.
J’ai également fait une petite étude sur l’évolution des sujets (extraits algorithmiquement) présents dans les tweets traitant de la grève. On remarque que certains sujets sont transitoires et d’autres plus permanents.
Continue reading “Visualisation de la #GGI – Mise à jour!”

Visualisation – Structure d'influence du conflit étudiant

Depuis plus de 100 jours, les étudiants et le gouvernement s’affrontent dans les médias traditionnels et les médias sociaux. Les médias sociaux nous offrent la chance d’analyser l’opinion publique sans passer par de coûteux sondages. Évidemment, cette méthode comporte des biais. Par exemple, les individus plus politisés sont bien plus présents sur les médias sociaux. Néanmoins, les médias sociaux demeurent une façon extrêmement intéressante d’analyser les mouvements sociaux à un niveau très désagrégé, soit au niveau des individus.
L’infographie précédente caractérisait le contenu des tweets, celle-ci s’attarde plutôt à la structure des interactions entre les individus. Comme dans l’infographie précédente, un histogramme illustre le nombre de tweets publiés par jour selon différents mots-clics (soit tous les tweets, #manifencours et #casseroles). Il est important de mentionner que les histogrammes sont normalisés, c’est-à-dire que pour chaque histogramme, la valeur maximale est utilisée pour pondérer chaque graphe. Cette méthodologie permet d’illustrer efficacement les variations de chaque série.
Une version haute-résolution en format PDF est disponible ici.
Continue reading “Visualisation – Structure d'influence du conflit étudiant”

Visualisation des tweets de la grève étudiante

Peu importe l’opinion que l’on peut avoir sur la grève, il n’en demeure pas moins qu’elle doit être la grève la plus “tweeté” de l’histoire québécoise. Il s’agit donc d’une chance inégalée d’analyser ce mouvement social.
J’ai donc conçu cette petite infographie à l’aide de tweets que j’ai capturés. J’ai utilisé les hashtags suivants pour intercepter les tweets ayant comme sujet la grève: #ggi #non1625 et #22mar.
Il est possible de télécharger une version PDF en haute résolution de cette infographie [en cliquant ici].
Continue reading “Visualisation des tweets de la grève étudiante”

Scientific collaborations by Metropolitan Statistical Areas

I had a lot of positive feedback last year when I designed my map of scientific collaborations. I think that there were two main reasons for this interest. First of all, the map was visually striking; it was abstract but it could still convey useful information about the world. Secondly, I think that the interest that people have in maps is mainly egocentric. In other words, the first thing that we look for when looking at a map, is to see where and how our house, state, country, etc. are represented on that map.

This time I wanted to design a much more detailed map, one that could help to make decisions or help understand scientific collaborations. The USA is a very interesting country because they fund science in such a massive way. Also, the United States is a land of contrasts where no two states are alike and this makes for interesting comparisons. Continue reading “Scientific collaborations by Metropolitan Statistical Areas”