GPT e PaLM: per i Large Language Model qualità o quantità?
di Paolo Benanti (blog)
In una recente inchiesta, il Washington Post ha scoperto che il dataset pubblico C4 di Google, utilizzato per addestrare modelli linguistici di nuova generazione come T5 di Google e LLaMA di Facebook, contiene testi provenienti da siti web con contenuti molto problematici. Questo ci interroga sugli effetti non previsti né prevedibili per i prodotti che da questo derivano o deriveranno.
Il Washington Post ha scoperto e reso pubblico in questo lungo articolo che il dataset C4 contiene dati proveniente da Stormfront, Kiwi Farms, 4chan e altri siti web potenzialmente problematici, tra cui almeno 27 identificati dal governo statunitense come mercati di contraffazione e pirateria. Tra gli altri, il sito nazionalista bianco VDARE, il sito di notizie di estrema destra Breitbart e l’emittente russa RT.
Ci sembra interessante, seguendo quanto fatto dalla testata statunitense, ricordare che i chatbot AI sono esplosi in popolarità negli ultimi quattro mesi, sbalordendo il pubblico con le loro impressionanti capacità, dalla scrittura di sofisticate tesine alle conversazioni di una lucidità spaventosa. Dobbiamo sempre essere consapevoli che questi software, per quanto sofisticati e sorprendenti, non possono pensare come gli esseri umani: non capiscono realmente ciò che dicono. Possono imitare il linguaggio umano perché l’intelligenza artificiale che li alimenta ha ingerito una quantità enorme di testo, per lo più prelevato da Internet.
Questo testo è la principale fonte di informazioni dell’intelligenza artificiale sul mondo che sta costruendo e influenza il modo in cui risponde agli utenti. Se l’intelligenza artificiale supera il test di ammissione alla scuola di legge, ad esempio, è probabilmente perché i dati di addestramento includono migliaia di siti di esercitazione per il test LSAT.
Le aziende tecnologiche però hanno deciso di innalzare una cortina di ferro su ciò che hanno dato in pasto in fase di addestramento all’intelligenza artificiale.
Per questo l’iniziativa del Washington Post, che ha quindi deciso di analizzare uno di questi set di dati per rivelare completamente i tipi di siti web proprietari, personali e spesso offensivi che entrano nei dati di addestramento di un’intelligenza artificiale, è di grande interessa e utilissima per iniziare a pensare se e come questi sistemi siano adeguati e rispettosi di identità culturali e democratiche dei paesi occidentali e in particolare di quell’isola sempre più isolata nella difesa della rule of law che è l’Europa.
Per guardare all’interno di questa scatola nera, il Post ha analizzato il set di dati C4 di Google, un’enorme istantanea dei contenuti di 15 milioni di siti web che sono stati utilizzati per addestrare alcune IA di alto profilo in lingua inglese, chiamate modelli linguistici di grandi dimensioni, tra cui T5 di Google e LLaMA di Facebook. (OpenAI non rivela quali set di dati utilizza per addestrare i modelli che supportano il suo popolare chatbot, ChatGPT).
Il Post ha collaborato con i ricercatori dell’Allen Institute for AI per questa indagine e ha classificato i siti web utilizzando i dati di Similarweb, una società di analisi web. Circa un terzo dei siti web non ha potuto essere classificato, soprattutto perché non sono più presenti su Internet. Questi dati non sono mostrati nel paper di riferimento uscito da questo lavoro.
Il dataset C4 di Google è stato creato effettuando il crawling del web e lo scraping dei dati di testo da un gran numero di pagine web. Secondo Google, C4 è stato inizialmente sviluppato come “versione ripulita” dei dati per l’addestramento dell’intelligenza artificiale di Common Crawl.
Ci promettiamo di approfondire più avanti ulteriormente la questione. Ora ci interessa sottolineare un passaggio interessante dell’articolo:
I siti web commerciali e industriali costituiscono la categoria più grande (16% dei token categorizzati), guidata da fool.com n. 13, che fornisce consigli sugli investimenti. Poco distante, kickstarter.com n. 25, che consente agli utenti di finanziare in crowdfunding progetti creativi, e più in basso, patreon.com n. 2.398, che aiuta i creatori a raccogliere quote mensili dagli abbonati per contenuti esclusivi. Kickstarter e Patreon potrebbero dare all’intelligenza artificiale l’accesso alle idee e alle copie di marketing degli artisti, sollevando il timore che la tecnologia possa copiare questo lavoro per suggerirlo agli utenti. Attualmente, gli artisti non ricevono alcun compenso o credito quando il loro lavoro viene incluso nei dati di addestramento dell’IA, e hanno presentato denunce per violazione del copyright contro i generatori di testo-immagine Stable Diffusion, MidJourney e DeviantArt. L’analisi del Post suggerisce che potrebbero arrivare altre sfide legali: Il simbolo del copyright – che indica un’opera registrata come proprietà intellettuale – compare più di 200 milioni di volte nel set di dati C4.
Ancora una volta dobbiamo essere consapevoli del perché è così importante un azione di giornalismo investigativo come quella del Washington Post. Il Post ha pubblicato uno strumento di ricerca per i proprietari di siti web e altri per scoprire se un sito specifico era incluso nel set di dati C4 di Google. L’indagine ha rilevato che il dataset era dominato da siti web legati al giornalismo, alla creazione di contenuti, all’intrattenimento e allo sviluppo di software, con patents.google.com, wikipedia.org e scribd.com elencati come i primi tre siti. Tuttavia, i dati di addestramento provenienti da siti più discutibili potrebbero potenzialmente indurre i modelli di intelligenza artificiale a generare testi indesiderati, razzisti, pornografici, inaffidabili e dannosi.
Un’analisi algoretica si sofferma anche sul set di partenza di addestramento e non può chiedersi non solo che fragilità legali emergeranno ma anche se e come una scelta di cosa includere nel datalake non sia di fatto anche un’opzione di natura politica e con severe conseguenze geopolitiche o con possibili effetti che porteranno il tradizionale softpower di Hollywood al livello di un vero e proprio colonialismo culturale.
Fonte: https://www.paolobenanti.com/post/llm-qualita-quantita
Oltre ad avere stolti umani, ora abbiamo pure stolti artificiali…