{"id":78922,"date":"2023-05-01T11:00:02","date_gmt":"2023-05-01T09:00:02","guid":{"rendered":"https:\/\/appelloalpopolo.it\/?p=78922"},"modified":"2023-04-29T09:47:45","modified_gmt":"2023-04-29T07:47:45","slug":"gpt-e-palm-per-i-large-language-model-qualita-o-quantita","status":"publish","type":"post","link":"https:\/\/appelloalpopolo.it\/?p=78922","title":{"rendered":"GPT e PaLM: per i Large Language Model qualit\u00e0 o quantit\u00e0?"},"content":{"rendered":"<p><strong>di Paolo Benanti (blog)<\/strong><\/p>\n<p id=\"viewer-foo\" class=\"mm8Nw _1j-51 WkT0MK _1FoOD _78FBa qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"_2PHJq public-DraftStyleDefault-ltr\">In una recente inchiesta, il Washington Post ha scoperto che il dataset pubblico C4 di Google, utilizzato per addestrare modelli linguistici di nuova generazione come T5 di Google e LLaMA di Facebook, contiene testi provenienti da siti web con contenuti molto problematici. Questo ci interroga sugli effetti non previsti n\u00e9 prevedibili per i prodotti che da questo derivano o deriveranno.<\/span><\/p>\n<p id=\"viewer-csef7\" class=\"mm8Nw _1j-51 WkT0MK _1FoOD _78FBa qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"_2PHJq public-DraftStyleDefault-ltr\">Il Washington Post ha scoperto e reso pubblico in <a class=\"_3Bkfb _1lsz7\" href=\"https:\/\/www.washingtonpost.com\/technology\/interactive\/2023\/ai-chatbot-learning\/\" target=\"_blank\" rel=\"noopener noreferrer nofollow\" data-hook=\"linkViewer\"><u class=\"_3zM-5\">questo lungo articolo<\/u><\/a> che il dataset C4 contiene dati proveniente da Stormfront, Kiwi Farms, 4chan e altri siti web potenzialmente problematici, tra cui almeno 27 identificati dal governo statunitense come mercati di contraffazione e pirateria. Tra gli altri, il sito nazionalista bianco VDARE, il sito di notizie di estrema destra Breitbart e l&#8217;emittente russa RT.<\/span><\/p>\n<p id=\"viewer-52q0j\" class=\"mm8Nw _1j-51 WkT0MK _1FoOD _78FBa qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"_2PHJq public-DraftStyleDefault-ltr\">Ci sembra interessante, seguendo quanto fatto dalla testata statunitense, ricordare che i chatbot AI sono esplosi in popolarit\u00e0 negli ultimi quattro mesi, sbalordendo il pubblico con le loro impressionanti capacit\u00e0, dalla scrittura di sofisticate tesine alle conversazioni di una lucidit\u00e0 spaventosa. Dobbiamo sempre essere consapevoli che questi software, per quanto sofisticati e sorprendenti, non possono pensare come gli esseri umani: non capiscono realmente ci\u00f2 che dicono. Possono imitare il linguaggio umano perch\u00e9 l&#8217;intelligenza artificiale che li alimenta ha ingerito una quantit\u00e0 enorme di testo, per lo pi\u00f9 prelevato da Internet.<\/span><\/p>\n<p id=\"viewer-ei7tr\" class=\"mm8Nw _1j-51 WkT0MK _1FoOD _78FBa qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"_2PHJq public-DraftStyleDefault-ltr\">Questo testo \u00e8 la principale fonte di informazioni dell&#8217;intelligenza artificiale sul mondo che sta costruendo e influenza il modo in cui risponde agli utenti. Se l&#8217;intelligenza artificiale supera il test di ammissione alla scuola di legge, ad esempio, \u00e8 probabilmente perch\u00e9 i dati di addestramento includono migliaia di siti di esercitazione per il test LSAT.<\/span><\/p>\n<p id=\"viewer-dpodo\" class=\"mm8Nw _1j-51 WkT0MK _1FoOD _78FBa qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"_2PHJq public-DraftStyleDefault-ltr\">Le aziende tecnologiche per\u00f2 hanno deciso di innalzare una cortina di ferro su ci\u00f2 che hanno dato in pasto in fase di addestramento all&#8217;intelligenza artificiale. <\/span><\/p>\n<p id=\"viewer-5aa2q\" class=\"mm8Nw _1j-51 WkT0MK _1FoOD _78FBa qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"_2PHJq public-DraftStyleDefault-ltr\">Per questo l&#8217;iniziativa del Washington Post, che ha quindi deciso di analizzare uno di questi set di dati per rivelare completamente i tipi di siti web proprietari, personali e spesso offensivi che entrano nei dati di addestramento di un&#8217;intelligenza artificiale, \u00e8 di grande interessa e utilissima per iniziare a pensare se e come questi sistemi siano adeguati e rispettosi di identit\u00e0 culturali e democratiche dei paesi occidentali e in particolare di quell&#8217;isola sempre pi\u00f9 isolata nella difesa della rule of law che \u00e8 l&#8217;Europa.<\/span><\/p>\n<p id=\"viewer-4c6tm\" class=\"mm8Nw _1j-51 WkT0MK _1FoOD _78FBa qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"_2PHJq public-DraftStyleDefault-ltr\">Per guardare all&#8217;interno di questa scatola nera, il Post ha analizzato il set di dati C4 di Google, un&#8217;enorme istantanea dei contenuti di 15 milioni di siti web che sono stati utilizzati per addestrare alcune IA di alto profilo in lingua inglese, chiamate modelli linguistici di grandi dimensioni, tra cui T5 di Google e LLaMA di Facebook. (OpenAI non rivela quali set di dati utilizza per addestrare i modelli che supportano il suo popolare chatbot, ChatGPT).<\/span><\/p>\n<p id=\"viewer-f4lkf\" class=\"mm8Nw _1j-51 WkT0MK _1FoOD _78FBa qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"_2PHJq public-DraftStyleDefault-ltr\">Il Post ha collaborato con i ricercatori dell&#8217;Allen Institute for AI per questa indagine e ha classificato i siti web utilizzando i dati di Similarweb, una societ\u00e0 di analisi web. Circa un terzo dei siti web non ha potuto essere classificato, soprattutto perch\u00e9 non sono pi\u00f9 presenti su Internet. Questi dati non sono mostrati nel <a class=\"_3Bkfb _1lsz7\" href=\"https:\/\/www.semanticscholar.org\/paper\/Documenting-the-English-Colossal-Clean-Crawled-Dodge-Sap\/40c3327a6ddb0603b6892344509c7f428ab43d81?itid=lk_inline_enhanced-template\" target=\"_blank\" rel=\"noopener noreferrer nofollow\" data-hook=\"linkViewer\"><u class=\"_3zM-5\">paper<\/u><\/a> di riferimento uscito da questo lavoro.<\/span><\/p>\n<p id=\"viewer-ak0t5\" class=\"mm8Nw _1j-51 WkT0MK _1FoOD _78FBa qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"_2PHJq public-DraftStyleDefault-ltr\">Il dataset C4 di Google \u00e8 stato creato effettuando il crawling del web e lo scraping dei dati di testo da un gran numero di pagine web. Secondo Google, C4 \u00e8 stato inizialmente sviluppato come &#8220;versione ripulita&#8221; dei dati per l&#8217;addestramento dell&#8217;intelligenza artificiale di Common Crawl.<\/span><\/p>\n<p id=\"viewer-n35u\" class=\"mm8Nw _1j-51 WkT0MK _1FoOD _3M0Fe T3Ond1 WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"_2PHJq public-DraftStyleDefault-ltr\">Ci promettiamo di approfondire pi\u00f9 avanti ulteriormente la questione. Ora ci interessa sottolineare un passaggio interessante dell&#8217;articolo:<\/span><\/p>\n<blockquote id=\"viewer-3cnjt\" class=\"_3cMZT _3Dd1B b8KWBd _1FoOD _78FBa qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"_2PHJq public-DraftStyleDefault-ltr\">I siti web commerciali e industriali costituiscono la categoria pi\u00f9 grande (16% dei token categorizzati), guidata da fool.com n. 13, che fornisce consigli sugli investimenti. Poco distante, kickstarter.com n. 25, che consente agli utenti di finanziare in crowdfunding progetti creativi, e pi\u00f9 in basso, patreon.com n. 2.398, che aiuta i creatori a raccogliere quote mensili dagli abbonati per contenuti esclusivi. Kickstarter e Patreon potrebbero dare all&#8217;intelligenza artificiale l&#8217;accesso alle idee e alle copie di marketing degli artisti, sollevando il timore che la tecnologia possa copiare questo lavoro per suggerirlo agli utenti. Attualmente, gli artisti non ricevono alcun compenso o credito quando il loro lavoro viene incluso nei dati di addestramento dell&#8217;IA, e hanno presentato denunce per violazione del copyright contro i generatori di testo-immagine Stable Diffusion, MidJourney e DeviantArt. L&#8217;analisi del Post suggerisce che potrebbero arrivare altre sfide legali: Il simbolo del copyright &#8211; che indica un&#8217;opera registrata come propriet\u00e0 intellettuale &#8211; compare pi\u00f9 di 200 milioni di volte nel set di dati C4.<\/span><\/p><\/blockquote>\n<p id=\"viewer-dsung\" class=\"mm8Nw _1j-51 WkT0MK _1FoOD _78FBa qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"_2PHJq public-DraftStyleDefault-ltr\">Ancora una volta dobbiamo essere consapevoli del perch\u00e9 \u00e8 cos\u00ec importante un azione di giornalismo investigativo come quella del Washington Post. Il Post ha pubblicato uno strumento di ricerca per i proprietari di siti web e altri per scoprire se un sito specifico era incluso nel set di dati C4 di Google. L&#8217;indagine ha rilevato che il dataset era dominato da siti web legati al giornalismo, alla creazione di contenuti, all&#8217;intrattenimento e allo sviluppo di software, con patents.google.com, wikipedia.org e scribd.com elencati come i primi tre siti. Tuttavia, i dati di addestramento provenienti da siti pi\u00f9 discutibili potrebbero potenzialmente indurre i modelli di intelligenza artificiale a generare testi indesiderati, razzisti, pornografici, inaffidabili e dannosi.<\/span><\/p>\n<p id=\"viewer-fek9r\" class=\"mm8Nw _1j-51 WkT0MK _1FoOD _78FBa qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"_2PHJq public-DraftStyleDefault-ltr\">Un&#8217;analisi algoretica si sofferma anche sul set di partenza di addestramento e non pu\u00f2 chiedersi non solo che fragilit\u00e0 legali emergeranno ma anche se e come una scelta di cosa includere nel datalake non sia di fatto anche un&#8217;opzione di natura politica e con severe conseguenze geopolitiche o con possibili effetti che porteranno il tradizionale softpower di Hollywood al livello di un vero e proprio colonialismo culturale. <\/span><\/p>\n<p><strong>Fonte: <a href=\"https:\/\/www.paolobenanti.com\/post\/llm-qualita-quantita\">https:\/\/www.paolobenanti.com\/post\/llm-qualita-quantita<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>di Paolo Benanti (blog) In una recente inchiesta, il Washington Post ha scoperto che il dataset pubblico C4 di Google, utilizzato per addestrare modelli linguistici di nuova generazione come T5 di Google e LLaMA di Facebook, contiene testi provenienti da siti web con contenuti molto problematici. Questo ci interroga sugli effetti non previsti n\u00e9 prevedibili per i prodotti che da questo derivano o deriveranno. Il Washington Post ha scoperto e reso pubblico in questo lungo&#46;&#46;&#46;<\/p>\n","protected":false},"author":105,"featured_media":64201,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","enabled":false},"version":2}},"categories":[32],"tags":[],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"https:\/\/appelloalpopolo.it\/wp-content\/uploads\/2021\/04\/Paolo-Benanti.jpg","jetpack_sharing_enabled":true,"jetpack_shortlink":"https:\/\/wp.me\/p7ZaJ4-kwW","_links":{"self":[{"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/posts\/78922"}],"collection":[{"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/users\/105"}],"replies":[{"embeddable":true,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=78922"}],"version-history":[{"count":1,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/posts\/78922\/revisions"}],"predecessor-version":[{"id":78923,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/posts\/78922\/revisions\/78923"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/media\/64201"}],"wp:attachment":[{"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=78922"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=78922"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=78922"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}