Outil d’analyse de tweets

Avant la mise en ligne d’une application #Ideo2017, un premier outil est déjà mis à disposition de la communauté pour le traitement de corpus de tweets:

http://ideo2017.ensea.fr/outil-twitter/index.php

Cette interface, développée dans le cadre d’un stage de M2 sciences du langage de Abdelouafi EL OTMANI dirigé par Julien Longhi, permet de faire des recherches dans les corpus Polititweets et #Intermittent, et de générer des sous-corpus spécifiques à ces recherches.

En effet, le format XML-TEI des corpus nécessite une mise en forme pour le traitement dans les outils d’analyse des données textuelles, et nous avons pu constater des difficultés d’interopérabilité entre les pratiques des communautés de constitution de corpus, et d’analyse outillée des discours. Cet outil permettra donc une prise en main plus aisée par les usagers des logiciels mentionnés plus bas.

Cet outil se présente comme un moteur de recherche:

capture-decran-2016-12-20-a-16-54-10

Il convient en premier lieu de choisir le corpus souhaité:

capture-decran-2016-12-20-a-16-54-01

Dans notre cas, nous choisissons Polititweets. L’utilisateur peut ensuite effectuer sa requête, par exemple « démocratie »:

capture-decran-2016-12-20-a-16-54-39

L’utilisateur peut choisir de faire une recherche dans tout le corpus, ou de se focaliser sur un compte twitter spécifique.

En cliquant sur « Valider », les résultats apparaissent: contenu des tweets, auteur du tweet, support de production, et nombre de retweets:

capture-decran-2016-12-20-a-16-54-57

Le menu en haut de la page permet de produire des exports sur mesure pour 2 logiciels d’analyse de données textuelles, Lexico3 et Iramuteq:

capture-decran-2016-12-20-a-17-03-24

En choisissant par exemple Lexico3, sans nettoyer les liens, on obtient un corpus qu’il ne reste plus qu’à copier et utiliser pour une analyse dans le logiciel:

capture-decran-2016-12-20-a-16-55-16

En faisant de même avec Iramuteq, après analyse dans le logiciel, on obtient facilement par exemple l’analyse des similitudes, qui rend compte des cooccurrences de « démocratie »:

demo

Cet outil constitue donc un premier pas vers l’application #Ideo2017: mise à disposition à la communauté, outil intuitif, aide à la constitution de corpus balisés grâce à la médiation de l’outil.