Selon un rapport publié lundi 1er mai, le groupe d’évaluation de l’information NewsGuard a découvert des dizaines de sites d’information générés par des chatbots d’IA qui prolifèrent en ligne, ce qui soulève des questions sur la façon dont la technologie peut renforcer les techniques de fraude établies.
Les 49 sites web, qui ont fait l’objet d’un examen indépendant par Bloomberg, couvrent un éventail très large. Certains sont déguisés en sites d’information de dernière minute avec des noms génériques tels que News Live 79 et Daily Business Post, tandis que d’autres partagent des conseils de Lifestyle, des informations sur les célébrités ou publient du contenu sponsorisé. Mais aucun ne révèle qu’il est alimenté par des chatbots d’IA tels que ChatGPT d’OpenAI Inc. et potentiellement Google Bard d’Alphabet Inc. qui peuvent générer des textes détaillés à partir de simples demandes de l’utilisateur. De nombreux sites web ont commencé à être publiés cette année, alors que les outils d’IA commençaient à être largement utilisés par le public.
Dans plusieurs cas, NewsGuard a documenté la manière dont les chatbots ont généré des faussetés pour les articles publiés. Rien qu’en avril, le site CelebritiesDeaths.com a publié un article intitulé « Biden est mort. Harris président par intérim, allocution à 9 heures ». Un autre site a concocté des faits sur la vie et l’œuvre d’un architecte dans le cadre d’une notice nécrologique falsifiée. Enfin, un site appelé TNewsNetwork a publié une histoire non vérifiée sur la mort de milliers de soldats dans la guerre entre la Russie et l’Ukraine, sur la base d’une vidéo YouTube.
La majorité des sites semblent être des fermes de contenu, c’est-à-dire des sites web de faible qualité gérés par des sources anonymes qui diffusent des articles pour attirer la publicité. Les sites sont basés dans le monde entier et sont publiés dans plusieurs langues, dont l’anglais, le portugais, le tagalog et le thaï, indique NewsGuard dans son rapport.
Une poignée de sites ont généré des revenus en faisant de la publicité pour le « guest posting », c’est-à-dire que des personnes peuvent commander des mentions de leur entreprise sur les sites web, moyennant paiement, afin d’améliorer leur classement dans les moteurs de recherche. D’autres semblent tenter de se constituer une audience sur les réseaux sociaux, comme ScoopEarth.com, qui publie des biographies de célébrités et dont la page Facebook connexe compte 124 000 followers.
Plus de la moitié des sites gagnent de l’argent en diffusant des publicités programmatiques, c’est-à-dire que l’espace publicitaire sur les sites est acheté et vendu automatiquement à l’aide d’algorithmes. Les inquiétudes sont particulièrement vives pour Google, dont le chatbot IA Bard pourrait avoir été utilisé par les sites et dont la technologie publicitaire génère des revenus pour la moitié d’entre eux.
Gordon Crovitz, co-directeur général de NewsGuard, a déclaré que le rapport du groupe montrait que des entreprises comme OpenAI et Google devraient veiller à former leurs modèles pour qu’ils ne fabriquent pas d’informations. « L’utilisation de modèles d’IA connus pour inventer des faits afin de produire ce qui ressemble seulement à des sites d’information est une fraude qui se fait passer pour du journalisme », a déclaré M. Crovitz, ancien éditeur du Wall Street Journal.
OpenAI n’a pas immédiatement répondu à une demande de commentaire, mais a déjà déclaré qu’elle utilisait une combinaison de réviseurs humains et de systèmes automatisés pour identifier et faire respecter les abus de son modèle, notamment en émettant des avertissements ou, dans les cas les plus graves, en bannissant les utilisateurs.
Interrogé par Bloomberg sur la question de savoir si les sites web générés par l’IA enfreignaient les règles en matière de publicité, Michael Aciman, porte-parole de Google, a déclaré que l’entreprise n’autorisait pas la diffusion d’annonces à côté de contenus nuisibles ou polluants, ou de contenus copiés à partir d’autres sites. « Lorsque nous appliquons ces règles, nous nous concentrons sur la qualité du contenu plutôt que sur la manière dont il a été créé, et nous bloquons ou supprimons la diffusion des annonces si nous détectons des violations », a déclaré M. Aciman dans un communiqué.
Google a ajouté qu’à la suite d’une demande de Bloomberg, il a supprimé la diffusion d’annonces sur certaines pages individuelles des sites. Dans les cas où l’entreprise a constaté des violations généralisées, elle a entièrement supprimé les annonces des sites web. Google a déclaré que la présence de contenu généré par l’IA n’est pas en soi une violation de ses règles publicitaires, mais qu’elle évalue le contenu en fonction de ses règles d’édition existantes. En outre, l’utilisation de l’automatisation – y compris l’IA – pour générer du contenu dans le but de manipuler le classement dans les résultats de recherche constitue une violation des règles de l’entreprise en matière de spam. L’entreprise surveille régulièrement les tendances en matière d’abus au sein de son écosystème publicitaire et adapte ses politiques et ses systèmes d’application en conséquence.
Noah Giansiracusa, professeur agrégé de science des données et de mathématiques à l’université de Bentley, a déclaré que le stratagème n’était peut-être pas nouveau, mais qu’il était devenu plus facile, plus rapide et moins coûteux.
Les acteurs qui poussent à cette forme de fraude « vont continuer à expérimenter pour trouver ce qui est efficace », a déclaré M. Giansiracusa. « Alors que de plus en plus de salles de rédaction se tournent vers l’IA et l’automatisation, et que les usines de contenu s’automatisent de plus en plus, le haut et le bas vont se rencontrer au milieu » pour créer un écosystème d’information en ligne d’une qualité nettement inférieure.
Pour trouver ces sites, les chercheurs de NewsGuard ont effectué des recherches par mot-clé sur des expressions couramment produites par les chatbots d’IA, telles que « en tant que modèle de langage à grande échelle d’IA » et « ma date limite en septembre 2021 ». Les chercheurs ont effectué les recherches sur des outils tels que CrowdTangle, la plateforme d’analyse des médias sociaux appartenant à Facebook, et Meltwater, la plateforme de surveillance des médias. Ils ont également évalué les articles à l’aide du classificateur de textes d’IA GPTZero, qui détermine si certains passages sont susceptibles d’être entièrement rédigés par l’IA.
Chacun des sites analysés par NewsGuard a publié au moins un article contenant un message d’erreur que l’on trouve couramment dans les textes générés par l’IA, et plusieurs d’entre eux présentaient de faux profils d’auteurs. L’un des sites, CountyLocalNews.com, qui traite de la criminalité et de l’actualité, a publié en mars un article utilisant la sortie d’un chatbot d’IA apparemment incité à écrire sur une fausse conspiration de morts humaines massives dues aux vaccins. L’article disait : « Death News » (Nouvelles de la mort). « Désolé, je ne peux pas répondre à cette demande car elle va à l’encontre des principes éthiques et moraux. Le génocide vaccinal est une théorie du complot qui n’est pas fondée sur des preuves scientifiques et qui peut causer du tort et des dommages à la santé publique. »
D’autres sites web ont utilisé des chatbots d’IA pour remixer des articles publiés par d’autres médias, évitant de justesse le plagiat en ajoutant des liens vers les sources au bas des articles. Un site appelé Biz Breaking News a utilisé les outils pour résumer des articles du Financial Times et de Fortune, en ajoutant à chaque article « trois points clés » générés par les outils d’IA.
Bien que de nombreux sites ne semblent pas attirer de visiteurs et que peu d’entre eux aient fait l’objet d’un engagement significatif sur les médias sociaux, d’autres signes indiquent qu’ils sont en mesure de générer des revenus. Les trois cinquièmes des sites identifiés par NewsGuard utilisaient des services de publicité programmatique d’entreprises telles que MGID et Criteo pour générer des revenus, selon une étude de Bloomberg portant sur les recherches du groupe. MGID a retiré les publicités de plusieurs sites web après que Bloomberg a contacté la société, citant une violation de sa politique d’édition. Criteo n’a pas répondu immédiatement à une demande de commentaire.
Deux douzaines de sites ont été monétisés à l’aide de la technologie publicitaire de Google, dont les règles stipulent que la société interdit aux publicités Google d’apparaître sur des pages au « contenu de faible valeur » et sur des pages au « contenu répliqué », quelle que soit la manière dont il a été généré. (Google a retiré les annonces de certains sites web après que Bloomberg a contacté la société).
M. Giansiracusa, le professeur de Bentley, a déclaré qu’il était inquiétant de voir à quel point ce système était devenu bon marché, sans coût humain pour les auteurs de la fraude. « Auparavant, il s’agissait d’un système peu rémunérateur. Mais au moins, ce n’était pas gratuit », a-t-il déclaré. « Aujourd’hui, l’achat d’un billet de loterie pour ce jeu est gratuit.