Knowtex Blog

[Labs] La communauté Knowtex sur Twitter à la loupe

Le 1 août 2011 par Raphaël Velt

Après avoir étudié les outils de cartographie de réseaux et vu leurs applications à la fois aux réseaux sociaux et à l’étude de la recherche scientifique, nous les avons utilisés pour tracer des conversations sur Twitter lors d’événements : La Nuit des Musées, le Festival Futur En Seine ou encore la conférence Lift France.

Ces cartographies ont notamment attiré l’attention de plusieurs community managers qui ont exprimé leurs besoins d’outils pouvant les aider à comprendre leurs communautés. Dans cette perspective, nous avons décidé de regarder à la loupe notre communauté, de triturer les données dans tous les sens et de vous livrer nos réflexions dans cet article un peu expérimental. Les cartes que nous allons vous montrer s’inspirent entre autre des travaux de Bernhard Rieder, maître de conférences en Information et Communication, qui a travaillé sur la diffusion de l’information sur Twitter, dans le cadre du projet « Internet, Pluralisme et Redondance de l’Information ».

Avec ses 1641 abonnés (1) ou « followers », notre compte Twitter @Knowtex a établi des liens avec un public presque aussi large que les 1878 membres inscrits sur le site. Twitter est également un haut lieu de conversation, bien plus actif que les espaces de commentaires autour des liens référencés sur Knowtex ou des articles du knowtexblog. Mais comment quantifier et qualifier les utilisateurs de Twitter liés à Knowtex et leur activité ? Que peut-on apprendre de l’étude de cette « communauté » ?

Ce qu’est (ou n’est pas) Twitter

Avant de vous abreuver de cartes et de chiffres, il est bon de rappeler quelques caractéristiques de Twitter. Il s’agit d’un service à la fois très simple et très complexe. Simple, parce que son « ADN » – inchangé depuis le lancement en 2006 – se décrit en quelques mots : un système de messages limités à 140 caractères (les « tweets »), offrant la possibilité à ses utilisateurs de s’abonner aux flux des autres.

Complexe, car cette simplicité a permis aux utilisateurs de s’approprier le service et de créer des usages TRÈS diversifiés. Il peut servir d’outil de conversation entre amis, de relais d’une communication institutionnelle, de fil de dépêches pour la presse, d’outil de veille pour stocker et partager des liens sur des sujets précis et il peut également être intégré dans des dispositifs ludiques et/ou artistiques. Ces usages peuvent aussi se chevaucher et évoluer dans le temps selon les utilisateurs.

Ceux-ci ont d’ailleurs proposé une syntaxe pour décrire et compléter les tweets. Ainsi, pour mentionner un utilisateur ou lui répondre, une arobase suivie de son nom est inscrite dans le tweet (« @Knowtex »). Pour citer le contenu d’un tweet tout en rendant hommage au tweet d’origine, le retweet a été inventé, qui se créait à l’origine de manière manuelle en tapant « RT @ » suivi du nom du compte, puis du contenu d’origine. Enfin, la pratique du hashtag, un mot-clé précédé du caractère « # » (hash en anglais) permet d’annoter les tweets et de les regrouper en conversations thématiques qui pourront ensuite être retrouvées grâce au moteur de recherche de Twitter.

Ces trois propositions d’utilisateurs ont été consacrées par l’usage, et sont devenues suffisamment répandues pour que Twitter décide de les inclure comme fonctionnalités et que nous les utilisions aujourd’hui comme autant de facettes permettant d’analyser le fonctionnement d’une communauté.

L’existence d’une API (Interface de Programmation Applicative) a permis d’interfacer le site avec d’autres services et d’étendre les fonctionnalités du service, permettant entre autres de partager des photos et vidéos ou de connecter son compte Twitter avec d’autres réseaux sociaux.

Il ne faut pas négliger l’effet de réseau qui fait que l’utilité de Twitter pour un utilisateur croît avec le nombre de connexions qu’il a. Ceci explique, d’une part, que beaucoup de nouveaux utilisateurs renoncent par manque d’intérêt et d’autre part qu’il y ait une concentration plus forte de certains milieux (créatifs du web, journalistes, etc.) et une prépondérance de la région parisienne sur Twitter.

Klout, un outil d’analyse de Twitter

Avant de proposer nos propres outils, observons ce qui existe sur le marché et les problématiques auxquelles ceux-ci répondent.

Klout, l’un des outils les plus populaires, assigne un score d’influence de 0 à 100 à chaque compte Twitter et permet d’affiner les analyses en les connectant à des comptes Facebook. Ce score a un enjeu important dans le monde du marketing qui, depuis les années 1950 et la théorie de la « communication à deux étages » de Lazarsfeld et Katz, cherche à identifier des influenceurs comme relais de communication.

Au delà de ce score (forcément réducteur, comme tout indicateur chiffré unique), Klout donne trois autres scores : la taille du réseau que l’on peut atteindre, le « niveau d’amplification » correspondant aux retweets et mentions, et enfin, l’influence de ceux que l’on réussit à influencer, ce qui n’est pas sans rappeler le principe du PageRank de Google. Klout précise les sujets sur lesquels un utilisateur est influent (avec parfois des erreurs liées aux difficultés de l’analyse sémantique). Enfin, le service définit des « styles » correspondant aux différents profils d’usage de Twitter, du simple « observateur » à la « célébrité » en passant par le « leader d’opinion », le « socialiseur » ou encore (comme @Knowtex) le « spécialiste ».

Mais au delà de ces quelques indicateurs, nous avons voulu mieux comprendre ce qui pouvait se cacher derrière… Nous avons essayé « d’ouvrir la boîte noire« en sortant nos outils cartographiques.

Ce que disent les liens entre comptes

Le premier angle que nous avons pris pour étudier la communauté a été de voir quels comptes étaient reliés entre eux par un lien d’abonnement. Nous avons pris la liste de tous les comptes qui suivent @Knowtex et ceux que @Knowtex suit (soit un total de plus de 2 300) et nous avons relevé, pour chaque compte, via l’API Twitter, quelles étaient leurs connexions. Les requêtes nécessaires ont pris, du fait des limitations imposées par Twitter, quelques heures, et nous ont permis de relever pas moins de 140 000 liens entre comptes !

Nous avons injecté ces données dans Gephi, le logiciel « star » de la visualisation et de l’analyse de réseaux. En choisissant un algorithme de spatialisation qui fait apparaître la structure du réseau, nous voyons apparaître une grosse pelote de laine. En effet, le réseau est très riche en liens. Ceci est caractéristique de Twitter où, contrairement à Facebook ou à LinkedIn, les relations sont asymétriques et où, le réseau servant autant pour l’information que pour des raisons sociales, les abonnements ne reflètent pas toujours des liens sociaux.

La seule structure qui se détache à l’œil nu du reste de la pelote est un petit groupe de comptes anglophones spécialisés dans les sciences. Ceci nous apprend que la majeure partie de la communauté de Knowtex, francophone, utilise Twitter pour suivre principalement des comptes en français.

Ordonner les liens : la détection de communautés

Une structure non apparente à l’œil nu peut être dévoilée par les modules mathématiques offerts par Gephi. Un outil nommé « modularité » permet ainsi de faire ressortir quelques grands groupes. Le résultat doit tout de même être nuancé : l’algorithme privilégie la rapidité à la précision et les questions de détection de communautés sont toujours l’objet de travaux de recherches très actifs.

La répartition n’est d’ailleurs pas toujours la même à chaque exécution du calcul, mais deux grands groupes se détachent systématiquement :

  • Le domaine des sciences, avec des comptes comme ceux du CNRS, de la Cité des Sciences ou encore de Sciences et Démocratie, qui est rattaché à la « péninsule anglophone »
  • Le domaine des « webacteurs », avec notamment des journalistes de « pure players » comme Owni ou Slate, des employés d’agences web, des consultants ou des lieux orientés technologie comme la Cantine.

Ces deux domaines correspondent aux deux « cultures », scientifique et numérique, autour desquelles s’articule le collectif « Le Grand Mix », dont Knowtex est membre. D’autres groupes plus petits apparaissent aux frontières de ces deux grandes communautés :

Des chiffres !

Gephi permet enfin de calculer un certain nombre de mesures pour chacun des comptes. Commençons d’abord par les chiffres qui nous sont fournis par Twitter, à savoir les nombres d’abonnements et d’abonnés. Sans surprise, les 10 comptes de notre liste ayant le plus de « followers » sont d’ampleur internationale et twittent en anglais.

À la première marche du podium, nous retrouvons l’ancien candidat à la présidentielle reconverti en expert du changement climatique Al Gore, et ses plus de 2 millions d’abonnés. Il est suivi de l’éditeur Tim O’Reilly, de l’organisateur des conférences TED Chris Anderson, du compte officiel de ces mêmes conférences, de l’équipe scientifique du magazine Wired, du magazine New Scientist, du CERN, du musée d’art moderne de San Fransisco (SF MOMA), du webzine Ars Technica et enfin en dixième place, de la prestigieuse revue Nature. Le premier compte en langue française est celui du journaliste et blogueur québecois Dominic Arpin, à la 16e place, tandis que le premier compte basé en France occupe la place suivante et est celui du blog de graphisme Fubiz.

Al Gore

Utilisons maintenant les modules de Gephi et attachons nous à une mesure assez simple à appréhender : le degré. Il s’agit du nombre de connexions entrantes et/ou sortantes qu’a un nœud du graphe. Logiquement, ceux qui ont les listes d’abonnements les plus proches de Knowtex auront les degrés les plus élevés sur le graphe. C’est notamment le cas de Nicolas Loubet, l’un des animateurs de Knowtex : il possède un « demi-degré intérieur » (en anglais et dans l’interface de Gephi « In Degree ») de 726, ce qui veut dire que 726 des comptes répertoriés le suivent, et un « demi-degré extérieur » (« Out Degree ») de 756, il suit donc 756 comptes dans le réseau Knowtex.

Les quatre comptes qui suivent le plus de comptes à l’intérieur de notre liste sont, sans grande surprise, des animateurs du site. Après Nicolas, on retrouve Marion Sabourdy puis Gayané Adourian et Audrey Bardon. Ils sont suivis, à la 5° place, d’Antoine Blanchard, spécialiste des relations sciences-société et co-fondateur du « C@fé des Sciences » et du collectif « Le Grand Mix ». A l’inverse, si les deux comptes les plus suivis dans la communauté sont également ceux de Nicolas et Marion, on retrouve en troisième position le site web d’information Owni suivi de la Ministre de l’Écologie Nathalie Kosciusko-Morizet, pionnière de l’usage de Twitter parmi les personnalités politiques.

Antoine Blanchard

Comme les nombres d’abonnements ou d’abonnés, le degré nous donne un axe pour déterminer le niveau d’influence d’un compte, le premier à l’échelle globale et le second à l’échelle de notre communauté. Combinés l’un à l’autre, ils donnent également une idée des recouvrements entre le réseau d’un compte et celui de Knowtex. Prenons l’exemple de Richard-Emmanuel Eastes, directeur de l’Espace Pierre Gilles de Gennes et président du groupe Traces. Son nombre d’abonnés est de 81 et son degré intérieur de 53. Ses abonnés sont donc à 65 % internes au réseau de Knowtex. Dans l’autre sens, il a 26 abonnements pour un degré extérieur de 24. En ajoutant @Knowtex, qui n’est pas inclus dans le réseau, ce sont 96 % de ses abonnements qui sont recrutés dans notre communauté.

Richard-Emmanuel Eastes

Gephi implémente un algorithme très connu des utilisateurs de Google, le « PageRank ». (2) Il mesure l’importance d’une page en tenant compte non seulement du nombre de liens vers celle-ci, mais également du propre score de PageRank des sites qui pointent vers celle-ci : une page fera autorité si d’autres pages faisant autorité la référencent. De la même manière, un compte Twitter fera autorité si des comptes faisant autorité le suivent.

Au PageRank, les quatre premiers comptes sont tous américains : il s’agit, dans l’ordre, de Tim O’Reilly, du juriste Lawrence Lessig, fondateur à Harvard du Center for Internet and Society, de la sociologue spécialiste des réseaux sociaux danah boyd et enfin d’Al Gore. En cinquième place, nous retrouvons Nathalie Kosciusko-Morizet.

Mesurer le capital social

Intéressons nous à la notion de « capital social ». Celui-ci est défini par le sociologue Pierre Bourdieu comme « l’agrégat des ressources réelles ou potentielles qui sont liées à la possession d’un réseau durable de plus ou moins de rapports institutionnalisés de la connaissance et de l’identification mutuelles ». Cela signifie donc qu’un individu ayant un bon réseau aura, toutes choses égales par ailleurs, plus de possibilités d’action et donc, potentiellement, plus d’influence. Mais comment le mesurer ?

Pour le sociologue américain Ronald Burt, le capital social est lié à l’existence de trous structuraux, c’est à dire d’absence de liens entre communautés. Ceux qui ont un fort capital social sont ceux qui arrivent à créer des ponts, à réaliser un « courtage » (« brokering ») au-dessus de ces trous. Ses recherches montrent que le succès des cadres d’une entreprise (mesuré par le fait d’être promu ou de recevoir une augmentation) augmente avec le nombre de trous structuraux dans leurs réseaux. Burt mesure ces trous par ce qu’il nomme la « contrainte réseau ».

Cet indicateur n’existe pas dans Gephi, mais il peut être remplacé par le « local clustering coefficient », qui donne la densité au voisinage d’un nœud. Plus cette densité est faible, plus il y a de trous. Si l’on ne tient pas compte des nœuds isolés ayant des degrés très faibles et donc « que du trou », on retrouve en tête du classement quatre animateurs de Knowtex et Antoine Blanchard, puis deux consultants (Planète Éducation et Alto Labs), l’association Sciences et Démocratie, l’agence québécoise Science Presse et le webmaster du Muséum de Toulouse, Samuel Bausson.

Pour Burt, si les individus qui se trouvent proches des trous ont autant de capital, c’est parce qu’ils peuvent relier des communautés diverses et donc des idées variées. Une mesure de Gephi permet de quantifier cette capacité à relier, c’est la « centralité d’intermédiarité » (« betweenness centrality »), c’est à dire la probabilité pour un nœud de se trouver sur le chemin entre deux autres nœuds. Les haut du classement est très proche de l’indicateur précédent, mais de nouveaux comptes remontent, comme ceux du veilleur Pierre Lemasson, de la revue Nature, ou encore le psychologue Yann Leroux.

Pas un graphe, mais plusieurs

Si les liens d’abonnement sur Twitter ne sont pas suffisants pour caractériser la présence d’un lien social, d’autres types d’interactions peuvent-elles nous éclairer ? Pour cela, nous allons étudier les mentions et les retweets. Nous avons pour cela relevé tous les tweets postés par des comptes suivis par Knowtex du 1er au 17 juillet 2011. L’API de Twitter extrait directement les mentions, retweets, hashtags et URLs qui se trouvent dans les tweets.

La logique des mentions sur Twitter reflète souvent des conversations, ou des tentatives d’attirer l’attention d’une personne. Le graphe des mentions est 15 fois moins dense que celui des abonnements. Plus de 400 comptes parmi ceux suivis par Knowtex (soit près d’un sur trois) n’ont pas mentionné ou n’ont pas été mentionné par un autre compte de cette liste. Du fait de cette plus faible densité, la structure devient plus visible.

En déployant le calcul de détection de communautés, nous retrouvons en partie les groupes identifiés précédemment et notamment les webacteurs qui forment une grosse partie – relativement homogène – du graphe. Les comptes tweetant en anglais sur les sciences restent à la périphérie, avec un groupe bien distinct autour de la revue Nature et des journalistes Ed Yong et Bora Zivkovic, et d’autres comptes plus éparpillés. Enfin, la communauté francophone des sciences n’est plus visible en tant que groupe.

Ce graphe tient compte des tweets du compte @Knowtex, et l’intègre dans un environnement et une communauté. Il se trouve dans un groupe composé, en plus des animateurs du site, d’une grande partie des comptes que nous avions rattachés à la catégorie « culture » et de quelques comptes de la communauté scientifique, comme la chercheuse Elifsu Sabuncu, à l’activité conversationnelle importante.

Vous reprendrez bien quelques chiffres ?

À nouveau graphe, nouvelles métriques. Recommençons par les degrés. La valeur du demi-degré intérieur représente maintenant le nombre de comptes desquels un compte reçoit des mentions. Le compte d’Owni domine ce classement et reçoit des mentions de 77 comptes. Il est suivi par ceux de Marion Sabourdy, du journaliste Jean-Marc Manach et de Nicolas Loubet. Mais en nombre total de mentions, le tableau est dominé par Elifsu Sabuncu (mentionnée 454 fois) et la roboticienne Jade Le Maître (237 mentions)… Il faut dire que celles-ci se sont mentionnées réciproquement pas moins de 161 fois.

Si l’on regarde le demi-degré extérieur, cette fois-ci, on découvre que notre collaboratrice Audrey Bardon arrive en tête, ayant mentionné 86 comptes différents, suivie de Marion Sabourdy, Isabelle Gruet (community manager de Thot Cursus), de Nicolas Loubet et de Pierre Lemasson.

Observer les comptes institutionnels sous cet angle montre des stratégies très différentes. Certains, comme le CNRS, ne mentionnent pas d’autres utilisateurs et font preuve d’une communication à sens unique. D’autres, comme l’Observatoire de l’Espace du CNES, impliquent beaucoup plus leur communauté.

Du côté des Retweets

Intéressons nous maintenant aux Retweets. Ceux-ci traduisent une propagation de l’information (souvent des liens, mais également des tweets humoristiques), avec l’intention de créditer la personne qui a trouvé ou transmis le premier cette information. Ce graphe est moins dense encore que le précédent et ne contient plus que 60% des comptes suivis par Knowtex.

Ce graphe ne tient compte que des Retweets utilisant la fonction spécifique de Twitter, et non ceux réalisés manuellement en suivant la syntaxe d’origine. Cette technique manuelle est toujours largement répandue, soit pour rajouter un commentaire à un retweet, soit pour créditer les intermédiaires du passage de l’information (un retweet « automatique » ne tiendra compte que du tweet original).

Les degrés de ce graphe sont plus bas que pour le précédent : le compte au degré intérieur le plus élevé, @Knowtex, l’a été par 15 autres comptes, et celui retweeté le plus souvent, Pierre Lemasson, l’a été 44 fois (par 12 comptes). De manière intéressante, en calculant le Page Rank, on retrouve de nouveau Tim O’Reilly en tête du classement, suivi du « serial-entrepreneur » et blogueur Loïc Le Meur et de Thot Cursus.

Les sujets de conversation : Cartographier les hashtags

Nous ne ferons pas ici d’analyse sémantique, nous nous contenterons de nous intéresser aux hashtags, qui procèdent d’une démarche d’annotation des tweets par les utilisateurs.

Nous avons établi cette carte en relevant quels hashtags étaient présents conjointement à l’intérieur des tweets. Nous avons filtré la liste pour supprimer les hashtags qui n’apparaissent qu’une seule fois dans notre corpus et ne pas afficher les liens entre tags lorsque leurs co-occurrences ne sont pas significatives.

La structure de ces co-occurrences montre principalement une hiérarchie autour de hashtags principaux, qui agrègent d’autres mots-clés nettement moins fréquents. Les conversations majeures sont principalement des événements (Futur En Seine avec #fens, la conférence Lift avec #lift11) et des sujets d’actualité (#fukushima, #dsk, #hadopi). Ils peuvent également correspondre à des pratiques de Twitter, comme #ff (pour « follow friday », tag utilisé le vendredi pour signaler une liste d’utilisateurs « à suivre »), le tag le plus fréquent sur Twitter. Enfin, des tags correspondant à des thématiques larges existent, comme « #art » et « #science », mais ils ne sont pas utilisés suffisamment systématiquement pour structurer l’espace du discours (#science n’est par exemple pas relié à #biologie).

Qui parle de quoi ? Des hashtags et des individus

Relions maintenant les hashtags non plus entre eux au sein des tweets, mais à l’échelle descomptes. Nous obtenons un graphe connectant des comptes et des hashtags. En gardant l’intégralité des données, il apparaît que le nombre des hashtags dépasse largement celui des utilisateurs. De nombreux hashtags ne sont utilisés que par un unique utilisateur. Cette dichotomie entre quelques hashtags très utilisés, très partagés, et des hashtags plus privés, montre l’existence de deux usages différents des hashtags : le premier sert à se rattacher à une conversation et s’ancrer socialement, le second comme mot-clé pour signaler un point de vue ou commenter le contenu du tweet, sans tenir compte des hashtags utilisés par les autres (par exemple « #jamaiscontent » ou « #ambivalent »).

En filtrant le graphe, la structure devient plus visible. Nous découvrons par exemple que la communauté dans laquelle nous avions placé Knowtex grâce aux mentions reste groupée, et que les hashtags qui concentrent cette communauté correspondent principalement aux différents événements que les collaborateurs et les proches de Knowtex ont couvert : #fens et #lift11, mais aussi les conférences de l’Atelier Français (« #atfr ») ou encore Communicating The Museum à Dusseldorf (« #ctm11 »), où nous n’étions pas, mais que nous avons suivi de près du fait de la proximité des centres d’intérêt.

Conclusion

Nous avons vu de nombreuses manières d’étudier le comportement d’une communauté. Notre analyse s’est basée sur des données obtenues de Twitter en sélectionnant spécifiquement des comptes à proximité de Knowtex. Cette sélection a introduit un biais important et a notamment ramené en tête de plusieurs des classements les animateurs de ce site, dont les réseaux recouvrent fortement celui du compte @Knowtex.

Elle ne permet pas non plus de connaître l’influence de chacun des comptes en dehors de cette petite partie du réseau. Il faudrait élargir d’un cran et tenir compte cette fois des réseaux de chacun des utilisateurs de la liste… mais nous atteindrions un réseau de plus d’un demi-million de comptes, ce qui est au delà de nos capacités de calcul et qui nécessiterait plusieurs journées de requêtes sur Twitter étant donné les limitations de l’API.

Il manque également à notre analyse la dimension dynamique. Il serait intéressant de pouvoir suivre l’évolution de ce réseau au cours du temps. Malheureusement, l’API de Twitter ne permet pas de savoir à quelle date les abonnements se sont faits, et donc de retracer l’évolution de ceux-ci, et limite également les possibilités de récupérer les tweets les plus anciens.

Après ces analyses poussées, le Saint Graal de la recherche des influenceurs nous paraît plus difficile à atteindre, car à nuancer par la diversité des comportements et le nombre de points de vue à considérer en étudiant un réseau. La réalisation de ces cartographies a demandé un temps et des ressources informatiques importants pour la collecte des données, et le résultat, bien que nous apportant un éclairage intéressant, ne remplace pas la connaissance d’une communauté et les compétences sociales que peut avoir un community manager.

Notes

1. Au 25 juillet.

2. Développé en 1998 comme travail de thèse des fondateurs du géant du Net, cet algorithme de classement des pages web est en grande partie responsable de la pertinence des résultats et donc du succès du moteur de recherche de Google.

>> Illustrations : les différentes visualisations de données sont de Raphaël. Photos : capture d’écran du compte @Knowtex, du réseau Twitter, #fail par misspixels (Flickr, licence CC), capture d’écran du réseau Klout, LEGO par Dunechaser (Flickr, licence CC), capture d’écran du site Sciences et Démocratie, Al Gore par jurvetson, Antoine Blanchard par OpenEdition, (Flickr, licence CC), Richard-Emmanuel Eastes par les Atomes Crochus, viaduc de Millau par La Collection Grands sites de Midi-Pyrénées (Flickr, licence CC), communauté par Varnent (Flickr, licence CC).

3 commentaires

  1. mathgon le 01 août 2011 à 11:14

    Une analyse qui renseigne assez bien sur la communauté Knotex et donne envie de participer encore plus activement!

  2. Jade Le Maître le 01 août 2011 à 11:23

    Intéressant article :)
    Si vous voulez avoir les stats sur votre compte twitter dans la durée, essayez Twoolr, l’outil est très bien fichu.

  3. reseau_france le 21 septembre 2011 à 12:08

    Très intéressante étude et analyse. Bravo Knowtex !

Ajoutez un commentaire

Pas encore membre ? Inscrivez-vous pour laisser un commentaire ! Déjà membre ? Connectez-vous

Tous les contenus, sauf exception signalée, sont sous licence Creative Commons BY-NC-SA