Le aziende di intelligenza artificiale raschiano le pagine web per addestrarli

Diversi media hanno iniziato a riportarlo aziende di intelligenza artificiale (AI) stanno facendo
raschiando (informazioni ottenute) alle pagine web anche se esistono protocolli destinati a bloccarli. Lo ha riferito, ad esempio, la Reuters
Perplessitàun’azienda che descrive il suo prodotto come “un motore di ricerca AI gratuito“, ruba il contenuto di varie pagine web e poi lo usa per addestrare le sue tecnologie.

Senza andare oltre, la settimana scorsa Forbes ha accusato Perplexity di aver rubato un loro articolo che è finito automaticamente su più piattaforme. D’altra parte, un altro mezzo rilevante come Cablatoha indicato che Perplexity è stata bypassando il protocollo di esclusione roboto robots.txt. Esistono altri siti Web di questo calibro che hanno accusato l’azienda di aver rubato i contenuti. Con il furto diciamo che un’azienda apprezzata a 1 miliardo di dollari Sta letteralmente rubando il contenuto dei siti Web e posizionandoli nei siti di ricerca più elevati. Non solo non viene citata la fonte, ma ciò genera una perdita di introiti e un calo del livello di utenza.

Reuters ha scoperto che Perplexity non è l’unica azienda di intelligenza artificiale che si occupa di scraping

Reuters ha riferito che Perplexity non è l’unica azienda di intelligenza artificiale che sta eludendo i file robots.txt. Ciò implica che stanno raschiando pagine web per ottenere contenuti che viene poi utilizzato per addestrare le tue tecnologie di intelligenza artificiale. Ovviamente tutto questo gratuitamente.

Reuters afferma di aver visto una lettera indirizzata agli editori da TollBit. Sconosciuta al mondo, si tratta di una startup che li accoppia con aziende di intelligenza artificiale affinché possano raggiungere accordi di licenza, in cui vengono avvisati che “Gli agenti AI provenienti da più fonti scelgono di bypassare il protocollo robots.txt per recuperare contenuti dai siti“. Il file robots.txt contiene istruzioni per i web crawler su quali pagine possono e non possono accedere. Gli sviluppatori web utilizzano questo protocollo dal 1994, ma la conformità È totalmente volontario..

Sebbene nella lettera di TollBit non venga menzionata alcuna azienda, Business Insider ha appreso un paio di nomi.
OpenAI e antropico Anche i segnali robots.txt vengono saltati. Entrambe le società avevano precedentemente dichiarato di rispettare le istruzioni di “Non tracciare” che i siti Web inseriscono nei propri file robots.txt.

Un Internet in cui i contenuti dell’intelligenza artificiale cercano di predominare per monopolizzare le ricerche sul Web (visite e entrate)

L'intelligenza artificiale (AI) esegue lo scraping di pagine Web per la formazioneL'intelligenza artificiale (AI) esegue lo scraping di pagine Web per la formazione

“Durante le sue indagini, Wired ha scoperto che una macchina server Amazon “senza dubbio gestito da Perplexity“stava saltando le istruzioni del file robots.txt sul tuo sito web.” È stato indicato da Engadget.

“Per confermare se Perplexity stesse eseguendo la scansione dei loro contenuti, Wired ha fornito allo strumento dell’azienda i titoli dei loro articoli o brevi suggerimenti che descrivono le loro storie. Secondo quanto riferito, lo strumento ha restituito risultati che parafrasavano fedelmente i loro articoli.”con attribuzione minima“. E a volte generava persino riassunti imprecisi delle loro storie.”

In seguito, Aravind Srinivas, CEO di Perplexity, ha affermato che la sua azienda “Non si ignora il protocollo di esclusione dei robot per poi mentire al riguardo“. Ora, a sua volta, riconosce che l’azienda utilizza web tracker di terze parti oltre ai propri. Il tracker identificato da Wired era uno di questi. Naturalmente, questi tracker di terze parti non saltare il protocollo di robots.txt è un’altra storia. Quando a Perplexity è stato chiesto se poteva ordinare da questi fornitori
per interrompere il tracciamento il sito Wired, si è limitato solo a rispondere che si trattava di qualcosa”complicato“.

“L’amministratore delegato di Perplexity ha difeso le pratiche della sua azienda, dicendo alla pubblicazione che il Robot Exclusion Protocol “non è un quadro giuridico” e suggerendo che editori e aziende come la sua potrebbero dover stabilire un nuovo tipo di relazione. “Avrebbe anche implicato che Wired avesse deliberatamente ha utilizzato le istruzioni per far sì che il chatbot Perplexity si comportasse come faceva, in modo che gli utenti normali non ottenessero gli stessi risultati.”

 
For Latest Updates Follow us on Google News
 

-

PREV Possono apparire nuovi concorrenti in un genere consolidato come il Battle Royale?
NEXT Ho testato il caricabatterie più venduto su AliExpress e l’ho confrontato con l’originale Apple: delusione?