Collecte de données dans la recherche sur le terrorisme et l'extrémisme en ligne: orientations futures - VOX

Par Ryan Scrivens, Joshua D. Freilich, Steven M. Chermak, and Richard Frank

Click to read this article in English and German.

Le rôle de l’internet dans la facilitation de l’extrémisme et du terrorisme violent est une préoccupation majeure pour de nombreux chercheurs, professionnels et responsables politiques dans le monde. L’État islamique, une organisation internationalement reconnue comme terroriste, a diffusé en streaming des vidéos de décapitations en d’otages occidentaux et d’autres images d’atrocités pour en radicaliser certains et en intimider d’autres. Des extrémistes antifascistes violents ont utilisé les réseaux sociaux pour inciter à une violence généralisée contre les forces de l’ordre pendant les confinements du COVID-19 et après l’assassinat de George Floyd. De nombreux extrémistes de droite impliqués dans l’assaut du Capitole des États-Unis le 6 janvier ont également utilisé des canaux en ligne pour coordonner et/ou se vanter de leur participation. Bien entendu, les forces de l’ordre et les services du renseignement se sont affairés à l’examen des empreintes numériques des mouvements extrémistes violents. Il n’est pas non plus étonnant que la recherche sur le terrorisme et l’extrémisme en ligne ait connu une croissance rapide ces dernières années, avec l’apparition d’une variété de techniques de collecte de données pour répondre aux questions clés dans ce domaine. L’accent a surtout été mis sur l’extraction d’informations disponibles en Open Source, publiquement accessibles, à partir de sources de données actives (par exemple, plateformes de réseaux sociaux, sites web, blogs, forums, etc.) et de sources informatives (par exemple, journaux en ligne, rapports gouvernementaux, bases de données existantes, etc.).

À mesure que les études dans ce domaine de recherche se sont multipliées, diverses techniques de collecte de données sont apparues pour répondre à des sujets de recherche clés, allant de l’extraction manuelle à l’utilisation d’outils informatiques pour recueillir des informations en ligne. Pourtant, malgré les efforts croissants dans la recherche sur le terrorisme et l’extrémisme en ligne pour collecter des informations en Open Source, nous connaissons mal les challenges méthodologiques, pratiques et éthiques que la collecte de données en Open Source dans ce domaine en particulier ou dans les études sur le terrorisme et l’extrémisme en général. En revanche, ce que nous connaissons en général provient d’études qui soulignent brièvement les limites spécifiques à un projet ou à une méthode de recherche particulière.

Dans notre prochain article dans le numéro spécial « The strengths and struggles of different methods of research on radicalization, extremism and terrorism » dans Studies in Conflict & Terrorism, édité par Frank Weerman et Elanie Rodermond, nous examinons les principaux points forts, limitations et préoccupations éthiques associées aux méthodes de collecte de données en Open Source couramment utilisées dans la recherche sur le terrorisme et l’extrémisme en ligne. L’objectif de cet article est d’aider les chercheurs et les analystes à choisir entre les méthodes de collecte de données couramment utilisées à cet égard, comme résumé dans le Tableau 1.

Tableau 1. Points forts et limites des méthodes de collecte de données dans la recherche sur le terrorisme et l’extrémisme en ligne.

Plus important encore, l’article propose également des suggestions pour faire progresser les efforts de collecte de données dans la recherche sur le terrorisme et l’extrémisme en ligne, basées sur les méthodes présentées ci-dessus, ce qui fait l’objet de cet article de blog. Cependant, nous ne formulons en aucun cas des suggestions basées sur chaque étude ou tendance en matière de collecte de données dans la recherche sur le terrorisme et l’extrémisme en ligne. En revanche, nos suggestions sont tirées de ce que nous considérons comme des tendances clés actuelles et émergentes découlant de notre implication dans le domaine. Nous avons contribué à l’expansion de la recherche sur le terrorisme et l’extrémisme en ligne, en développant des outils informatiques pour l’extraction et l’analyse à grande échelle de contenu extrémiste en ligne au centre de recherche International CyberCrime Research Centre, et en créant la base de données U.S. Extremist Cyber Crime Database pour mieux comprendre les voies de radicalisation et de mobilisation en ligne. Ces expériences nous ont fourni des perspectives uniques sur l’utilité de efforts divers de collecte de données en open source dans la recherche sur le terrorisme et l’extrémisme en ligne et de nouvelles voies pour des travaux futurs.

Premièrement, la combinaison des techniques d’extraction de données dans la recherche sur le terrorisme et l’extrémisme en ligne, telles que le mélange de techniques d’extraction de données manuelles et automatisées ou la liaison de robots d’indexation commercial avec d’autres outils d’extraction de données, fera progresser la recherche dans ce domaine. Ces combinaisons, bien que relativement rares dans la littérature sur le terrorisme et l’extrémisme en ligne, ont montré des signes de succès, en partie parce qu’une formation technique n’est pas nécessaire pour la collecte de données, et parce que les chercheurs peuvent bénéficier des points forts de chaque technique d’extraction mentionnée ci-dessus. La combinaison des techniques aidera également les chercheurs à mieux comprendre ce qui est saisi et ce qui manque en utilisant différentes stratégies, ainsi qu’à identifier les domaines où des ajustements dans le processus devraient être effectués. De plus, la combinaison de techniques peut être utile pour aborder certains défis de la collecte de données dans la recherche sur le terrorisme et l’extrémisme en ligne contemporain, tels que l’identification, puis la collecte de contenu à base d’images et de vidéos provenant d’applications de partage en ligne telles qu’Instagram et TikTok ou d’applications de communication cryptées telles que Telegram et Signal, ou même de plateformes de jeux telles que Steam et Twitch. Dans ce cas-là, le contenu extrémiste violent, les utilisateurs ou les réseaux d’intérêt pourraient être identifiés manuellement à partir de ces plateformes, puis les données extraites à l’aide de techniques informatiques.

Deuxièmement, les futurs efforts de collecte de données bénéficieraient de l’intégration de méthodes traditionnelles (par exemple, interviews approfondies ou sondages) avec des méthodes informatiques pour aborder des questions de recherche clés ayant des implications politiques. Scrivens et ses collègues, par exemple, ont utilisé un robot d’indexation numérique personnalisé pour extraire du contenu en ligne d’un échantillon d’extrémistes de droite violents et non violents identifiés par un ancien extrémiste violent lors d’une interview approfondie. Les chercheurs étaient ici dans une position privilégiée pour identifier quels utilisateurs en ligne s’engageaient dans l’extrémisme violent hors ligne afin d’explorer un éventail de leurs comportements en ligne par rapport à leurs homologues non violents. Un tel ensemble de données en Open Source contenant le comportement violent hors ligne des utilisateurs est en effet rare dans la recherche sur le terrorisme et l’extrémisme en ligne, car la plupart des données en open source n’ont tout simplement pas accès à la réalité du terrain. C’est en général l’une des limitations principales des données en Open Source, et pas seulement dans la recherche sur le terrorisme et l’extrémisme, car il est difficile de développer un niveau de confiance élevé dans l’exactitude des informations de seconde main sans une collecte directe de ces données.

Troisièmement, les chercheurs doivent rendre accessibles les archives du contenu en ligne extrémiste à d’autres chercheurs. L’accès aux données dans la recherche sur le terrorisme et l’extrémisme en ligne reste un défi pour de nombreux chercheurs dans le domaine, en particulier pour les jeunes chercheurs et ceux en début de carrière qui n’ont pas forcément les ressources ou les compétences nécessaires. Cela malgré les nombreuses demandes des chercheurs à rendre de tels contenus plus largement disponibles à des fins de recherche. Étonnamment, à ce jour, seul un petit nombre d’individus ont contribué à cette initiative. Le projet Dark Web, par exemple, a collecté et mis à disposition le contenu de 28 forums djihadistes comprenant plus de 13 millions de messages. La base de données Dark Crawler comprend, entre autres, plus de 11 millions de messages du forum d’extrémistes de droite le plus actif, Stormfront ; plus de 8 millions de messages contenant du contenu islamiste ; ainsi que plus de 49 millions de messages issus de 11 subreddits d’extrémistes de droite, tous disponibles pour les chercheurs sur demande. Non seulement ces bases de données exceptionnelles sont très rares, mais ces deux ressources n’ont pas été largement utilisées par les chercheurs, peut-être parce qu’elles sont moins connues par rapport aux bases de données largement utilisées telles que la Global Terrorism Database. Quoi qu’il en soit, fournir aux chercheurs l’accès à des sources de données non conventionnelles, en particulier des renseignements en Open Source et des données des réseaux sociaux, transformera incontestablement la compréhension future de l’extrémisme violent et du terrorisme en général, et particulièrement du terrorisme et de l’extrémisme en ligne.

Enfin, en plus de collecter puis de partager les données en Open Source entre les principales parties prenantes, les personnes qui travaillent dans la recherche sur le terrorisme et l’extrémisme en ligne devraient trianguler les données entre les bases de données et les ensembles de données. Prenant l’initiative à cet égard, Holt, Freilich, Chermak et LaFree, par exemple, ont triangulé des données entre les bases de données Extremist Crime Database et Profiles of Individual Radicalization in the United States, pour vérifier si diverses théories criminologiques tiennent compte des chemins vers la violence extrémiste en ligne et hors ligne. Cela a fourni plusieurs points d’observation pour explorer les similitudes et les différences entre les antécédents, les attitudes et le comportement des délinquants. Il serait peut-être tout aussi utile que les chercheurs combinent de telles bases de données avec celles qui incluent du contenu extrémiste en ligne, telles que les bases de données mentionnées plus haut Dark Web Project et The Dark Crawler, et développent une base de données centrale dans laquelle diverses plateformes en ligne fréquentées par les extrémistes violents et les terroristes peuvent être rendues disponibles en un endroit unique. Les chercheurs seraient ainsi mieux à même d’étudier les questions clés de la recherche sur le terrorisme et l’extrémisme en ligne, telles que savoir si la consommation de contenu extrémiste en ligne conduit directement à des actes violents qui n’auraient pas eu lieu si Internet n’existait pas.

Ryan Scrivens est professeur adjoint à l’École de justice pénale de l’Université d’État du Michigan (MSU), directeur associé du Centre de recherche internationale sur la cybercriminalité (ICCRC) et chercheur associé à VOX-Pol. Suivez-le sur X : @R_Scrivens.

Joshua D. Freilich est professeur au Département de justice pénale et au programme de doctorat en justice pénale du John Jay College, CUNY.

Steven M. Chermak est professeur à l’École de justice pénale de la MSU. Suivez-le sur X : @s_chermak.

Richard Frank est professeur à l’École de criminologie de l’Université Simon Fraser et directeur de l’ICCRC. Suivez l’ICCRC sur X : @ICCRC_SFU.