{"id":79797,"date":"2023-06-13T11:02:05","date_gmt":"2023-06-13T09:02:05","guid":{"rendered":"https:\/\/appelloalpopolo.it\/?p=79797"},"modified":"2023-06-12T11:40:28","modified_gmt":"2023-06-12T09:40:28","slug":"la-fame-di-parole-il-caso-internet-archive","status":"publish","type":"post","link":"https:\/\/appelloalpopolo.it\/?p=79797","title":{"rendered":"La fame di parole: il caso Internet Archive"},"content":{"rendered":"<p><strong>di Paolo Benanti (blog)<\/strong><\/p>\n<p id=\"viewer-foo\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">In un post sul blog di Internet Archive, Brewster Kahle, il CEO, si \u00e8 lamentato pubblicamente di centinaia di migliaia di connessioni multiple al sito che cercando di scaricarne tutto il contenuto, hanno mandato in tilt il sistema. Hacker? Sembrerebbe pi\u00f9 una fame di parole per generare token per addestrare qualche large language model. Ecco i dettagli.<\/span><\/p>\n<p id=\"viewer-8fjbe\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">Internet Archive \u00e8 una biblioteca digitale non-profit fondata nel 1996 da Brewster Kahle con l\u2019obiettivo di consentire un \u201caccesso universale alla conoscenza\u201d. Fa parte della IIPC (International Internet Preservation Consortium) ed \u00e8 un\u2019organizzazione che si batte per un\u2019Internet libera e aperta.<\/span><\/p>\n<p id=\"viewer-eecje\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">La funzione principale di Internet Archive \u00e8 quella di archiviare e preservare siti web, libri digitali, video, film, canzoni, immagini e interi siti web provenienti da ogni parte del mondo. Attualmente, contiene oltre 396 miliardi di pagine web, 14 miliardi di testi e 35 miliardi di contenuti multimediali di vario genere. In pratica, funge da \u201ccopia di backup\u201d dei contenuti dell\u2019intero web dal 1996 ad oggi.<\/span><\/p>\n<p id=\"viewer-1ecl8\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">Uno degli strumenti pi\u00f9 noti di Internet Archive \u00e8 la Wayback Machine, che permette agli utenti di navigare attraverso le versioni archiviate di siti web nel corso del tempo. Questo strumento pu\u00f2 essere utile per recuperare informazioni da siti web che non esistono pi\u00f9 o per analizzare l\u2019evoluzione di un sito nel tempo.<\/span><\/p>\n<p id=\"viewer-4k6id\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">Oltre ai siti web, Internet Archive offre anche accesso a una vasta gamma di contenuti multimediali, come film d\u2019epoca, libri, musica e software. Grazie a questi archivi, gli utenti possono accedere gratuitamente a risorse che altrimenti potrebbero essere difficili da trovare o persino perdute.<\/span><\/p>\n<p id=\"viewer-dga3f\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">In sintesi, Internet Archive svolge un ruolo fondamentale nella conservazione e nella diffusione della conoscenza digitale, offrendo un accesso gratuito e universale a una vasta gamma di risorse online.<\/span><\/p>\n<p id=\"viewer-e22mr\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">Ieri il sito \u00e8 andato offline due volte per il troppo traffico, una cosa alquanto strana per un contenitore di materiale di seconda mano. Ecco cosa ha scritto in un <a class=\"TWoY9 itht3\" href=\"https:\/\/blog.archive.org\/2023\/05\/29\/let-us-serve-you-but-dont-bring-us-down\/\" target=\"_blank\" rel=\"noopener noreferrer nofollow\" data-hook=\"linkViewer\"><u class=\"D-jZk\">post<\/u><\/a> il suo fondatore e CEO Brewster Kahle<strong>:<\/strong><\/span><\/p>\n<blockquote id=\"viewer-9erhm\" class=\"T70D5 _8ps7N b8KWBd OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"B2EFF public-DraftStyleDefault-ltr\">Quello che \u00e8 successo oggi su archive.org, per quanto ne sappiamo:<\/span><\/p><\/blockquote>\n<blockquote id=\"viewer-f3dvs\" class=\"T70D5 _8ps7N b8KWBd OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"B2EFF public-DraftStyleDefault-ltr\">Decine di migliaia di richieste al secondo per i nostri file OCR di dominio pubblico sono state lanciate da 64 host virtuali sui servizi AWS di Amazon. (Anche per gli standard del web, decine di migliaia di richieste al secondo sono molte).<\/span><\/p><\/blockquote>\n<blockquote id=\"viewer-9r7rn\" class=\"T70D5 _8ps7N b8KWBd OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"B2EFF public-DraftStyleDefault-ltr\">Questa attivit\u00e0 ha messo fuori uso archive.org per tutti gli utenti per circa un&#8217;ora.<\/span><\/p><\/blockquote>\n<blockquote id=\"viewer-2ps61\" class=\"T70D5 _8ps7N b8KWBd OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"B2EFF public-DraftStyleDefault-ltr\">Siamo grati ai nostri ingegneri che sono riusciti a lavorare su questo problema la domenica pomeriggio di un fine settimana festivo.<\/span><\/p><\/blockquote>\n<blockquote id=\"viewer-avf3o\" class=\"T70D5 _8ps7N b8KWBd OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"B2EFF public-DraftStyleDefault-ltr\">Abbiamo ripristinato il servizio bloccando quegli indirizzi IP.<\/span><\/p><\/blockquote>\n<blockquote id=\"viewer-8f5rb\" class=\"T70D5 _8ps7N b8KWBd OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"B2EFF public-DraftStyleDefault-ltr\">Ma un paio d&#8217;ore dopo altri 64 indirizzi hanno iniziato lo stesso tipo di attivit\u00e0. <\/span><\/p><\/blockquote>\n<blockquote id=\"viewer-78lhd\" class=\"T70D5 _8ps7N b8KWBd OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"B2EFF public-DraftStyleDefault-ltr\">Abbiamo capito come bloccare questa nuova serie, ma ancora una volta, con un&#8217;interruzione di circa un&#8217;ora.<\/span><\/p><\/blockquote>\n<blockquote id=\"viewer-8bfef\" class=\"T70D5 _8ps7N b8KWBd OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"B2EFF public-DraftStyleDefault-ltr\">&#8212; <\/span><\/p><\/blockquote>\n<blockquote id=\"viewer-fikpp\" class=\"T70D5 _8ps7N b8KWBd OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"B2EFF public-DraftStyleDefault-ltr\">Come sarebbe potuta andare meglio per noi:<\/span><\/p><\/blockquote>\n<blockquote id=\"viewer-cq6h4\" class=\"T70D5 _8ps7N b8KWBd OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"B2EFF public-DraftStyleDefault-ltr\">Chi vuole usare i nostri materiali in massa dovrebbe iniziare lentamente e poi aumentare. <\/span><\/p><\/blockquote>\n<blockquote id=\"viewer-c6o6e\" class=\"T70D5 _8ps7N b8KWBd OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"B2EFF public-DraftStyleDefault-ltr\">Inoltre, se state iniziando un progetto di grandi dimensioni, contattateci all&#8217;indirizzo info@archive.org, siamo qui per aiutarvi.<\/span><\/p><\/blockquote>\n<blockquote id=\"viewer-b9p7j\" class=\"T70D5 _8ps7N b8KWBd OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><p><span class=\"B2EFF public-DraftStyleDefault-ltr\">Se vi trovate bloccati, non ricominciate da capo, ma contattateci.<\/span><span class=\"B2EFF public-DraftStyleDefault-ltr\">Ancora una volta, utilizzate Internet Archive, ma non fateci perdere tempo.<\/span><\/p><\/blockquote>\n<p id=\"viewer-d9tb9\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">Perch\u00e9 tutta questa fame di parole?<\/span><\/p>\n<p id=\"viewer-43vdp\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">Le ipotesi per cui qualcuno abbia programmato dei server virtuali nel cloud Amazon si sono diffuse in internet. Le pi\u00f9 plausibili e accreditate tra i diversi commentatori riguardano il valore che il testo contenuto negli archivi storici del web ha per l&#8217;addestramento di quelle forme di intelligenza artificiale che sono i large language model.<\/span><\/p>\n<p id=\"viewer-n2bc\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">I large language model (LLM) vengono addestrati utilizzando enormi quantit\u00e0 di dati testuali provenienti da diverse fonti, come articoli di giornale, libri, pagine web e messaggi di social media. Ad esempio, GPT-3 di OpenAI, uno dei pi\u00f9 grandi modelli di linguaggio mai addestrati, conta 175 miliardi di parametri (per GPT-4, la nuova versione, OpenAI ha tenuto segreto il numero di parametri del modello). <\/span><\/p>\n<p id=\"viewer-3q7rc\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">Questi modelli analizzano e apprendono le regole del linguaggio, la sintassi e la semantica attraverso la programmazione parallela, affinando progressivamente le loro capacit\u00e0 di elaborazione e generazione del testo.<\/span><\/p>\n<div class=\"\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">Nel caso dei modelli pi\u00f9 grandi, l\u2019obiettivo \u00e8 fornire al modello il maggior numero possibile di testi grammaticali da cui apprendere. Ad esempio, il set di dati di addestramento \u201cNo Language Left Behind\u201d di Meta AI, che comprende 450 GB di testo, \u00e8 stato utilizzato per addestrare modelli su 148 coppie linguistiche incentrate sull\u2019inglese e 1.465 non incentrate sull\u2019inglese.<\/span><\/div>\n<p id=\"viewer-4n0fh\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">In sintesi, i large language model vengono addestrati utilizzando vasti insiemi di dati testuali provenienti da diverse fonti, al fine di apprendere e perfezionare le regole del linguaggio e generare testo coerente e significativo.<\/span><\/p>\n<p id=\"viewer-1ji7v\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">Forse qualcuno si chiede quanto testo rappresentano 175 miliardi di parametri, \u00e8 importante chiarire cosa si intende per \u201cparametri\u201d in questo contesto. I parametri sono valori appresi da un modello di intelligenza artificiale (IA) durante il processo di addestramento. Tuttavia, questi parametri non rappresentano direttamente il testo, ma piuttosto le relazioni e le conoscenze apprese dal modello durante il suo addestramento su grandi quantit\u00e0 di testo.<\/span><\/p>\n<p id=\"viewer-1ltoh\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">I modelli di IA come GPT-3 analizzano trilioni di parole estratte da libri digitalizzati e discussioni sul web per imparare a predire una logica e sensata successione di parole. Pertanto, i 175 miliardi di parametri di GPT-3 rappresentano la conoscenza appresa dal modello su queste parole e le loro relazioni, piuttosto che una quantit\u00e0 specifica di testo.<\/span><\/p>\n<p id=\"viewer-b1k4r\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">In sintesi, i 175 miliardi di parametri non possono essere convertiti direttamente in una quantit\u00e0 di testo, poich\u00e9 rappresentano le relazioni e le conoscenze apprese dal modello di AI durante il suo addestramento su vasti corpus di testo. <\/span><\/p>\n<p id=\"viewer-bbqi0\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">Tuttavia, secondo i dati resi pubblici sul modello, sappiamo che \u00e8 stato addestrato utilizzando database di testi provenienti da Internet, tra cui ben 570 GB di dati ottenuti da libri, testi web, Wikipedia, articoli e altri scritti su Internet. Per essere ancora pi\u00f9 precisi, sono stati immessi nel sistema 300 miliardi di parole. GPT-3 ha 96 blocchi di attenzione che contengono ciascuno 96 teste di attenzione, ed \u00e8 fondamentalmente un modello di trasformatore gigante.<\/span><\/p>\n<p id=\"viewer-84q0v\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">Vale la pena ricordare che non \u00e8 facile una stima del numero di parole a partire dalle dimensioni del file che le contiene. Il numero di parole in un GB di dati pu\u00f2 variare notevolmente a seconda di vari fattori, come il formato del file, la lingua utilizzata e il livello di compressione applicato. Secondo, un gigabyte di testo semplice contiene circa 200 milioni di parole. Tuttavia, la maggior parte dei file di videoscrittura aggiunge molte formattazioni e metadati, che possono ridurre significativamente il numero di parole per gigabyte. Ad esempio, i file di Microsoft Word contengono in media 64.782 pagine per gigabyte, secondo i dati di Microsoft. Pertanto, \u00e8 difficile fornire una stima accurata senza ulteriori informazioni.<\/span><\/p>\n<p id=\"viewer-cu9eg\" class=\"xVISr Y9Dpf WkT0MK OZy-3 _40ACk qEvi6J WkT0MK public-DraftStyleDefault-block-depth0 fixed-tab-size public-DraftStyleDefault-text-ltr\"><span class=\"B2EFF public-DraftStyleDefault-ltr\">Quello che ci sembra comunque notevole dell&#8217;accaduto \u00e8 il valore che ora assume una collezione di testo che prima sembrava destinata ad essere cancellata e dimenticata. La custodia fatta da Internet Archive di ci\u00f2 che abbiamo scritto nel web acquisisce ora valore non in funzione del suo passato ma del suo futuro. Dobbiamo passare dalla storia magistra vitae al datum faber futuri?<\/span><\/p>\n<p><strong>Fonte: <a href=\"https:\/\/www.paolobenanti.com\/post\/fame-di-parole\">https:\/\/www.paolobenanti.com\/post\/fame-di-parole<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>di Paolo Benanti (blog) In un post sul blog di Internet Archive, Brewster Kahle, il CEO, si \u00e8 lamentato pubblicamente di centinaia di migliaia di connessioni multiple al sito che cercando di scaricarne tutto il contenuto, hanno mandato in tilt il sistema. Hacker? Sembrerebbe pi\u00f9 una fame di parole per generare token per addestrare qualche large language model. Ecco i dettagli. Internet Archive \u00e8 una biblioteca digitale non-profit fondata nel 1996 da Brewster Kahle con&#46;&#46;&#46;<\/p>\n","protected":false},"author":105,"featured_media":64201,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","enabled":false},"version":2}},"categories":[32],"tags":[],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"https:\/\/appelloalpopolo.it\/wp-content\/uploads\/2021\/04\/Paolo-Benanti.jpg","jetpack_sharing_enabled":true,"jetpack_shortlink":"https:\/\/wp.me\/p7ZaJ4-kL3","_links":{"self":[{"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/posts\/79797"}],"collection":[{"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/users\/105"}],"replies":[{"embeddable":true,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=79797"}],"version-history":[{"count":1,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/posts\/79797\/revisions"}],"predecessor-version":[{"id":79798,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/posts\/79797\/revisions\/79798"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=\/wp\/v2\/media\/64201"}],"wp:attachment":[{"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=79797"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=79797"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/appelloalpopolo.it\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=79797"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}