OpenAI presenta GPTBot un Web Crawler progettato per estrarre automaticamente dati dall’intero Internet

OpenAI presenta GPTBot, un Web Crawler per estrarre dati automaticamente da Internet.

OpenAI ha risposto alle preoccupazioni sulla privacy e sulla proprietà intellettuale derivanti dalla raccolta di dati su siti web pubblici introducendo un nuovo strumento di web crawling chiamato GPTBot. Questa tecnologia mira a raccogliere dati pubblici dal web in modo trasparente e utilizzarli per addestrare i propri modelli di intelligenza artificiale, il tutto sotto l’egida di OpenAI.

L’agente utente di GPTBot mira a raccogliere dati che contribuiranno a perfezionare i futuri modelli di intelligenza artificiale. Durante questo processo, GPTBot escluderà le fonti che richiedono un pagamento. Tuttavia, è importante notare che alcuni dati raccolti potrebbero contenere involontariamente informazioni o testi identificabili, violando le politiche di OpenAI.

OpenAI riconosce la necessità di fornire agli amministratori di siti web opzioni riguardo all’accesso della piattaforma di GPTBot. Concedere l’accesso viene visto come una collaborazione per migliorare la precisione dei modelli di intelligenza artificiale, potenziando così le loro capacità e rafforzando le misure di sicurezza. Al contrario, OpenAI ha delineato una procedura per coloro che preferiscono non includere i propri siti web negli sforzi di raccolta dati di GPTBot. Questa guida include l’incorporazione delle direttive di GPTBot nel file robots.txt del sito web e la configurazione del suo accesso a segmenti di contenuto specifici.

OpenAI ha reso disponibile l’intervallo di indirizzi IP collegato alle attività di GPTBot per garantire una maggiore trasparenza. Questa pubblicazione non solo aiuta a identificare le azioni del bot, ma fornisce anche i mezzi per bloccare il suo accesso se necessario.

Queste iniziative di trasparenza sottolineano la risposta di OpenAI alle critiche rivolte agli operatori di modelli di intelligenza artificiale accusati di raccogliere dati senza il consenso esplicito. Il sentimento prevalente sostiene che le pratiche del settore abbiano potenzialmente violato i diritti di proprietà intellettuale e le protezioni della privacy raccogliendo contenuti da siti web pubblici senza l’autorizzazione adeguata. Ciò ha portato a chiedere alle entità di intelligenza artificiale di offrire meccanismi di opt-in e opt-out più completi, consentendo ai proprietari dei siti web e ai custodi dei dati di decidere se utilizzare i loro contenuti.

La piattaforma di crowdfunding Kickstarter ha recentemente introdotto regolamenti per i progetti di intelligenza artificiale in un contesto simile. Tra questi regolamenti, un requisito significativo stabilisce che i progetti che utilizzano fonti di dati esterne devono fornire prove di accordi di licenza adeguati e di consenso ottenuto dai siti di origine. I progetti che non soddisfano questo obbligo non saranno ammessi alla lista di Kickstarter.

Nella prossima settimana, si prevede che OpenAI subisca una revisione importante, contrassegnata dal passaggio dal livello fondamentale di ChatGPT a GPT-4. Inoltre, i miglioramenti al plugin Code Interpreter includeranno il supporto per il caricamento di più file per i suggerimenti, riflettendo l’impegno di OpenAI per il miglioramento continuo e l’innovazione.