Luca Lani, amministratore delegato di Citynews (che pubblica 56 giornali locali online) lancia l’allarme: l’Intelligenza artificiale sta saccheggiando contenuti del suo gruppo senza avvertire e senza riconoscimenti economici. Per poi riutilizzarli mescolati ad altri contenuti ugualmente saccheggiati. 

Scrive Lani su LinkedIn: “Il fenomeno delle scraping (scansionare e rubare contenuti) esiste da molto tempo, ma di recente è esploso in quantità, specialmente con l’avvento delle piattaforme AI. Nel luglio scorso ci siamo accorti che OpenAI e Perplexity scansionavano qualche milione di pagine al mese. E che le notizie erano poi disponibili nei servizi AI insieme ad altre testate, con servizi di riassunti news quotidiani. Abbiamo deciso di rivedere le policy di accesso con il robots.txt e bloccando tutti i bot AI ed in generale i bot malevoli, in attesa di un accordo economico. Abbiamo preso spunto dal New York Times, inserendo anche avvertenze legali. Consiglio dunque tutti i publisher di dotarsi quanto prima di un robots.txt restrittivo per proteggere i propri contenuti”.

fenomeno vasto

Ma questi accorgimenti non sono stati sufficienti: “Nei mesi scorsi ci siamo accorti che il fenomeno era molto molto più vasto. Un giorno un bot di Alibaba ha scansionato in poche ore 1 milione di pagine mentre molti altri bot non dichiarati, con IP senza neanche un chiaro proprietario, scansionavano i siti in maniera malevola per poi sparire nel nulla. Il robots.txt è una protezione solo per gli operatori che lo rispettano. Con il nostro team IT abbiamo sviluppato un software che potesse scansionare queste attività e dopo un paio di mesi di lavoro e di test siamo partiti con il monitoraggio. Dopo poche settimane abbiamo vagliato 15k IP su un totale di 4 milioni, selezionando 3000 IP per la blacklist. Abbiamo scoperto che questi IP sviluppavano la bellezza di 4 milioni di chiamate al giorno (solo nei confronti di contenuti testuali, non negli advertisement pubblicitari o negli analytcs)”. 

la beffa del traffico

Dentro -spiega Lani- c’è di tutto: bot che rubano contenuti, bot per training e retrivial AI, bot pubblicitari (Dmp, piattaforme), bot di aziende di Rassegne stampa, Aziende che vendono Seo, bot che rubano immagini, bot feed rss: “Quindi questi creano una copia nei loro server di contenuti coperti da copyright, per fini commerciali, con la beffa per noi di sostenere il costo di questo traffico. Tra qualche mese renderemo la lista aggiornata disponibile su github, il software purtroppo non può essere distribuito perché è stato creato su modelli di navigazione e regole specifiche per Citynews. Il tema è cosi attuale che ClaudFlare ha appena lanciato un servizio di blocco, con relativo business di monetizzazione chiamato ‘pay per crawl’“.

Infine Lani informa che, dopo aver chiuso alcune reti, Citynews si è accordato con alcuni player (come rassegne stampa) per una equa remunerazione: un primo passo. “Se tutti i publisher sapranno muoversi nella stessa direzione, chiudendo gli accessi, alle piattaforme non resterà che scendere a patti, dato che senza contenuti non c’è training, o servizi con contenuti aggiornati”.

(nella foto, Luca Lani)

LASCIA UN COMMENTO

Please enter your comment!
Please enter your name here