18 March 2025
Temps de lecture : 3 min
Selon les chiffres compilés par TollBit, une plateforme américaine de licence de contenus, OpenAI, Perplexity, Meta et les autres acteurs de l’IA ont scrapé en moyenne deux millions de fois les sites d’information au cours du quatrième trimestre 2024, avec une moyenne de sept passages par page. L’étude, présentée par Forbes, se base sur l’analyse de 160 sites internet (sites d’actualités nationales et locales, sur les technologies grand public, blogs…).
Ces chiffres ne seraient pas problématiques si ce scraping automatisé engendrait ensuite des visites d’internautes… Mais l’étude montre également que cette nouvelle génération de moteurs de recherche renvoie aux éditeurs 96% moins de trafic que Google !
“Nous observons un afflux de robots qui parcourent ces sites chaque fois qu’un utilisateur pose une question”, explique ainsi à Forbes Toshit Panigrahi, le PDG de TollBit. “La demande pour le contenu des éditeurs est loin d’être négligeable”, en conclut-il. Mais malgré les promesses des nouveaux géants de l’IA, cet attrait évident pour les contenus des médias est loin de se traduire par de nouveaux revenus.
Au contraire ! En février 2024, le cabinet d’études Gartner avait prédit une chute de 25% du trafic provenant des moteurs de recherche d’ici à 2026, principalement en raison des chatbots IA.
Pour certains éditeurs, comme la plateforme de formation Chegg, cette prédiction s’est déjà matérialisée: son trafic a chuté de 49% en janvier 2025 par rapport à l’année précédente. Une situation qui a conduit l’entreprise à attaquer Google en justice, en l’accusant de s’approprier son contenu au sein de ses résumés générés par IA (les “AI overviews”, qui n’ont pas encore été totalement déployés en Europe), sans attribution ni renvoi vers son site. Google n’est pas le seul acteur ciblé: le New York Post et le Wall Street Journal ont également porté plainte contre la startup Perplexity en octobre dernier.
De telles procédures contre les moteurs de recherche basés sur l’IA générative pourraient se multiplier dans les prochains mois, en parallèle des plaintes des ayants droits concernant l’entraînement des modèles fondamentaux – à l’image de la procédure initiée récemment contre Meta par la Société des gens de lettres (SGDL), le Syndicat national des auteurs et des compositeurs (SNAC) et le Syndicat national de l’édition (SNE).
À l’inverse, des médias comme Le Monde, AP, le groupe Axel Springer ou le Financial Times ont fait le choix de signer des accords avec OpenAI pour licencier une partie de leurs contenus, destinés à nourrir les résultats de ChatGPT. D’autres modèles de rémunérations sont en train d’émerger autour de plateformes de gestion centralisée des droits d’accès et de la rémunération, comme ce que proposent TollBit aux Etats-Unis ou Linkup en France.
Le rapport pointe également du doigt les méthodes utilisées pour la collecte de données. De nombreux moteurs n’identifient pas correctement leurs robots de scraping, ce qui complique la tâche des propriétaires de sites qui souhaitent les bloquer. “Il est très difficile pour les éditeurs de faire le choix de bloquer Google. Cela pourrait affecter leur référencement, et il nous est impossible de déduire exactement à quoi servent leurs robots”, souligne ainsi Olivia Joslin, cofondatrice de TollBit, à Forbes.
Le cas du moteur Perplexity – une startup valorisée à 9 milliards de dollars, spécialisée dans la recherche, qui a annoncé récemment un partenariat avec Bouygues Telecom en France – est particulièrement symbolique de ces pratiques: même lorsque les éditeurs ont bloqué l’accès à leurs sites, Perplexity continue de leur envoyer du trafic, ce qui implique qu’il continue à utiliser des méthodes de scraping.
Enfin, comme le souligne l’étude, l’impact de ces pratiques ne se limite pas à du détournement de trafic et des baisses de visites: ce scraping intensif augmente aussi les coûts des serveurs pour les éditeurs. Une double peine !
Topics
TOUS LES JEUDIS, RECEVEZ UNE DOSE D'EVENEMENTS, D'INNOVATIONS, MEDIA, MARKETING, ADTECH...
Je découvre les news !