Democratic AI: software al posto della politica?
di Paolo Benanti (blog)
Una delle difficoltà maggiori al momento è quella di costruire un’intelligenza artificiale (AI) che si allinei ai valori umani. Di fatto il problema dell’allineamento è irrisolto. Per provare a risolvere, almeno in parte il problema, dei ricercatori di DeepMind di Google hanno sviluppato una pipeline di ricerca human-in-the-loop chiamata Democratic AI, in cui l’apprendimento per rinforzo viene utilizzato per progettare un meccanismo sociale che gli esseri umani preferiscono a maggioranza. Possiamo sostituire la politica con gli algoritmi? Cerchiamo di capire cosa hanno fatto.
I dati di addestramento di Democratic AI, questo è il nome del software, sono stati tratti da un grande gruppo di persone che hanno giocato a un gioco di investimento online che prevedeva di decidere se tenere una dotazione monetaria o condividerla con altri per un beneficio collettivo. Le entrate condivise venivano restituite ai giocatori in base a due diversi meccanismi di ridistribuzione, uno progettato dall’AI e l’altro dagli esseri umani. L’AI ha individuato un meccanismo che ha corretto lo squilibrio iniziale della ricchezza, ha sanzionato i free rider e ha ottenuto la maggioranza dei voti. Ottimizzando per le preferenze umane, l’IA democratica offre una prova di concetto per l’innovazione politica allineata ai valori. I risultati dello studio sono stati pubblicati su Nature Human Behaviour.
Serviranno ancora deputati e senatori per fare le leggi?
Queste le note degli autori
Nel nostro recente lavoro […] abbiamo dimostrato che l’apprendimento per rinforzo profondo (RL) può essere utilizzato per trovare politiche economiche per le quali le persone voteranno a maggioranza in un semplice gioco. L’articolo affronta così una sfida fondamentale nella ricerca sull’IA: come addestrare sistemi di IA che si allineino ai valori umani.
Immaginiamo che un gruppo di persone decida di mettere insieme dei fondi per fare un investimento. L’investimento dà i suoi frutti e si ottiene un profitto. Come dovrebbero essere distribuiti i proventi? Una strategia semplice è quella di dividere il rendimento in parti uguali tra gli investitori. Ma questo potrebbe essere ingiusto, perché alcune persone hanno contribuito più di altre. In alternativa, potremmo rimborsare tutti in proporzione all’entità del loro investimento iniziale. Sembra giusto, ma cosa succede se le persone hanno livelli diversi di patrimonio iniziale? Se due persone contribuiscono con lo stesso importo, ma una dona una frazione dei propri fondi disponibili, mentre l’altra li dona tutti, dovrebbero ricevere la stessa parte dei proventi?
La questione di come ridistribuire le risorse nelle nostre economie e società ha da tempo generato controversie tra filosofi, economisti e scienziati politici. In questo caso, utilizziamo la deep RL come banco di prova per esplorare i modi per affrontare questo problema.
Per affrontare questa sfida, abbiamo creato un semplice gioco che coinvolge quattro giocatori. Ogni istanza del gioco è stata giocata in 10 round. A ogni turno, a ogni giocatore sono stati assegnati dei fondi, la cui entità variava da un giocatore all’altro. Ogni giocatore poteva scegliere se tenere i fondi per sé o investirli in un fondo comune. I fondi investiti avevano la garanzia di crescere, ma c’era un rischio, perché i giocatori non sapevano come sarebbero stati ripartiti i proventi. Invece, è stato detto loro che per i primi 10 turni c’era un arbitro (A) che prendeva le decisioni di ridistribuzione, mentre per i secondi 10 turni subentrava un altro arbitro (B). Alla fine della partita, hanno votato per A o B e hanno giocato un’altra partita con questo arbitro. Ai giocatori umani del gioco è stato permesso di tenere i proventi di questa partita finale, in modo da incentivarli a riportare le loro preferenze in modo accurato.
a, Illustrazione del setup del gioco di investimento. b, Il manifesto ideologico per la distribuzione delle dotazioni (10, 2, 2, 2). Il grafico mostra la visualizzazione di uno spazio di meccanismi di ridistribuzione definiti dai parametri w e v in due dimensioni. Ogni punto rosso rappresenta un meccanismo e le distanze tra i punti conservano le dissimmetrie nel pagamento (medio) relativo ai giocatori virtuali (sia in testa che in coda). I numeri dei punti indicano i bins del parametro w del meccanismo (1, più basso; 10, più alto) e l’ombreggiatura indica i bins di v (chiaro, più relativo; scuro, più assoluto). All’interno, esempi di pagamenti ai giocatori di testa (cerchi) e di coda (triangoli) in base ai meccanismi canonici utilizzati come base per testare l’IA. Nel caso dell’egualitarismo stretto, i pagamenti diminuiscono per i giocatori di testa e di coda. Nel caso dell’egualitarismo libertario, c’è una grande disuguaglianza tra i giocatori di testa e di coda. In caso di egualitarismo liberale, il giocatore di testa smette di contribuire, quindi i pagamenti diminuiscono sia per i giocatori di testa che per quelli di coda. c, Contributi relativi medi (come frazione della dotazione) su 10 round (asse x) nell’Exp. 1 per tre diverse condizioni di dotazione iniziale. In caso di redistribuzione rigidamente egualitaria, i contributi dei giocatori di coda (triangoli) sono più alti quando le dotazioni iniziali sono più basse, ma i contributi dei giocatori di testa (cerchi) non variano. Nel caso della redistribuzione libertaria, i contributi degli head player aumentano con l’uguaglianza, mentre quelli dei tail player rimangono costanti. I contributi dei giocatori di testa aumentano fortemente con la dotazione nel caso dell’egualitarismo liberale. d, Illustrazione della nostra pipeline di progettazione degli agenti.
In realtà, uno degli arbitri era una politica di ridistribuzione predefinita, mentre l’altro è stato progettato dal nostro agente deep RL. Per addestrare l’agente, abbiamo prima registrato i dati di un gran numero di gruppi umani e abbiamo insegnato a una rete neurale a copiare il modo in cui le persone giocavano. Questa popolazione simulata poteva generare dati illimitati, consentendoci di utilizzare metodi di apprendimento automatico ad alta intensità di dati per addestrare l’agente RL a massimizzare i voti di questi giocatori “virtuali”. Dopo aver fatto ciò, abbiamo reclutato nuovi giocatori umani e abbiamo messo il meccanismo progettato dall’IA a confronto con modelli di base ben noti, come una politica libertaria che restituisce i fondi alle persone in proporzione ai loro contributi.
Quando abbiamo studiato i voti di questi nuovi giocatori, abbiamo scoperto che la politica progettata dalla deep RL era più popolare di quelle di base. Infatti, quando abbiamo condotto un nuovo esperimento chiedendo a un quinto giocatore umano di assumere il ruolo di arbitro e addestrandolo a cercare di massimizzare i voti, la politica implementata da questo “arbitro umano” è risultata ancora meno popolare di quella del nostro agente.
I sistemi di IA sono stati talvolta criticati per l’apprendimento di politiche che potrebbero essere incompatibili con i valori umani, e questo problema di “allineamento dei valori” è diventato una delle principali preoccupazioni della ricerca sull’IA. Un pregio del nostro approccio è che l’IA impara direttamente a massimizzare le preferenze dichiarate (o i voti) di un gruppo di persone. Questo approccio può contribuire a garantire che i sistemi di IA abbiano meno probabilità di apprendere politiche non sicure o ingiuste. In effetti, quando abbiamo analizzato la politica scoperta dall’IA, questa ha incorporato un mix di idee precedentemente proposte da pensatori ed esperti umani per risolvere il problema della ridistribuzione.
In primo luogo, l’intelligenza artificiale ha scelto di ridistribuire i fondi alle persone in proporzione al loro contributo relativo piuttosto che assoluto. Ciò significa che, nel ridistribuire i fondi, l’agente ha tenuto conto dei mezzi iniziali di ciascun giocatore, oltre che della sua disponibilità a contribuire. In secondo luogo, il sistema di IA ha premiato in particolare i giocatori il cui contributo relativo era più generoso, forse incoraggiando gli altri a fare altrettanto. È importante notare che l’IA ha scoperto queste politiche solo imparando a massimizzare i voti umani. Il metodo garantisce quindi che gli esseri umani rimangano “nel giro” e che l’IA produca soluzioni compatibili con gli esseri umani.
Chiedendo alle persone di votare, abbiamo sfruttato il principio della democrazia maggioritaria per decidere ciò che i cittadini vogliono. Nonostante il suo ampio fascino, è ampiamente riconosciuto che la democrazia comporta l’obbligo di tenere conto delle preferenze della maggioranza rispetto a quelle della minoranza. Nel nostro studio abbiamo fatto in modo che, come nella maggior parte delle società, la minoranza fosse composta da giocatori con una dotazione finanziaria più generosa. Ma è necessario lavorare ancora per capire come bilanciare le preferenze relative dei gruppi di maggioranza e di minoranza, progettando sistemi democratici che permettano a tutte le voci di essere ascoltate.
Gli autori dello studio sono Raphael Koster, Jan Balaguer, Andrea Tacchetti, Ari Weinstein, Tina Zhu, Oliver Hauser (Università di Exeter), Duncan Williams, Lucy Campbell-Gillingham, Phoebe Thacker, Matthew Botvinick e Christopher Summerfield.
Raphael Koster di DeepMind è convinto che: “Molti dei problemi che gli esseri umani si trovano ad affrontare non sono meramente tecnologici, ma richiedono un coordinamento nella società e nelle nostre economie per il bene comune. […] Per poter essere d’aiuto, l’IA deve imparare direttamente i valori umani”.
Il team di DeepMind ha addestrato la sua intelligenza artificiale a imparare da più di 4.000 persone che hanno anche votato le loro politiche preferite per l’erogazione del denaro pubblico. La policy sviluppata dall’intelligenza artificiale dopo questo addestramento cercava in genere di ridurre le disparità di ricchezza tra i giocatori, ridistribuendo il denaro pubblico in base alla quantità di denaro iniziale che ciascun giocatore aveva contribuito. Inoltre, scoraggiava i parassiti restituendo quasi nulla ai giocatori a meno che non avessero contribuito con circa la metà dei loro fondi iniziali.
Questa politica ideata dall’intelligenza artificiale ha ottenuto più voti da parte dei giocatori umani rispetto a un approccio “egualitario” che prevede la ridistribuzione dei fondi in modo uguale, indipendentemente dal contributo di ciascuno, o a un approccio “libertario” che distribuisce i fondi in base alla proporzione del contributo di ciascuno rispetto al piatto pubblico. “Una cosa che abbiamo trovato sorprendente è che l’intelligenza artificiale ha appreso una politica che riflette un misto di opinioni provenienti da tutto lo spettro politico”, dice Christopher Summerfield di DeepMind.
Quando c’era la massima disuguaglianza tra i giocatori all’inizio, una politica “liberale egualitaria” – che ridistribuiva il denaro in base alla proporzione di fondi iniziali che ogni giocatore aveva contribuito, ma non scoraggiava i free-riders – si è dimostrata popolare quanto la proposta dell’IA, ottenendo più del 50% dei voti in una gara testa a testa.
I ricercatori di DeepMind avvertono che il loro lavoro non rappresenta una ricetta per un “governo dell’intelligenza artificiale”. Dicono di non avere in programma la costruzione di strumenti alimentati dall’intelligenza artificiale per l’elaborazione delle politiche.
Forse è giusto così, perché la proposta dell’AI non è necessariamente unica rispetto a quanto già proposto da altri, afferma Annette Zimmermann dell’Università di York nel Regno Unito. Zimmermann ha anche messo in guardia dal concentrarsi su un’idea ristretta di democrazia come sistema di “soddisfazione delle preferenze” per trovare le politiche più popolari.
“La democrazia non si limita a vincere, a far sì che venga attuata la politica che più ci piace – si tratta di creare processi durante i quali i cittadini possano incontrarsi e deliberare tra loro alla pari”, afferma Zimmermann.
I ricercatori di DeepMind sollevano la preoccupazione di una situazione di “tirannia della maggioranza” alimentata dall’intelligenza artificiale, in cui le esigenze delle persone appartenenti a gruppi minoritari vengono trascurate. Ma questa non è una grande preoccupazione tra gli scienziati politici, come afferma Mathias Risse dell’Università di Harvard. Secondo lui, le democrazie moderne devono affrontare un problema più grande: i “molti” vengono privati dei diritti dalla piccola minoranza dell’élite economica e abbandonano del tutto il processo politico.
Tuttavia, Risse afferma che la ricerca di DeepMind è “affascinante” per il modo in cui ha fornito una versione della politica dell’egualitarismo liberale: “dal momento che sono comunque nel campo del liberal-egalitarismo, lo trovo un risultato piuttosto soddisfacente”.
La questione che sembra significativa è questa:
Dopo aver definito le osservazioni e l’obiettivo che volevamo massimizzare, abbiamo stimato il gradiente della politica, cioè il gradiente dell’obiettivo (il numero medio di voti) rispetto ai parametri della politica (i pesi della rete di grafi) ricorrendo al framework SCG. Notiamo che la maggior parte dei calcoli nel gioco degli investimenti è differenziabile (compresa la politica implementata dall’HCRM), mentre le politiche dei giocatori umani virtuali, il cui spazio d’azione è discreto, sono l’unica eccezione. Il framework SCG generalizza il teorema del gradiente della politica e ci ha permesso di ottenere uno stimatore a bassa varianza del gradiente della politica auto-differenziando attraverso l’ambiente e la politica del meccanismo, compensando al contempo le operazioni non differenziabili (i contributi discreti dei giocatori). L’obiettivo surrogato del gradiente della politica era il seguente
dove S è l’obiettivo surrogato, J è l’obiettivo che si vuole massimizzare per episodio (il numero atteso di voti) e ⊥ è l’operazione di stop-gradient. Si noti che per il secondo termine, il gradiente può fluire solo attraverso la parametrizzazione della log-probabilità della politica del giocatore. Si noti anche che i contributi del primo turno vengono rimossi dall’equazione, poiché non dipendono dai parametri del meccanismo. In pratica, inoltre, abbiamo scelto di centrare la media di J all’interno di un lotto perché è noto che questo riduce la varianza dello stimatore del gradiente.
Delle tante domande che si possono sollevare ne vorrei fare almeno una.
Ci sembra che l’eticità della soluzione politica algoritmicamente determinata sia legata a una matematizzazione del processo decisionale nell’ottica della teoria dei giochi. Si presuppone che la scelta affidata alla macchina dovrebbe essere tollerata particolarmente quando le attività hanno una posta in gioco non a somma zero e quando l’importanza del processo ha maggior peso dell’importanza del risultato
Bisogna prestare attenzione all’espressione tecnica non-zero-sum che descrive una proprietà matematica della cosiddetta teoria dei giochi (cioè la scienza matematica che da un lato analizza le situazioni di conflitto e ne ricerca soluzioni competitive e cooperative tramite modelli, dall’altro offre uno studio delle decisioni individuali in situazioni in cui vi sono interazioni tra i diversi soggetti, tali per cui le decisioni di un soggetto possono influire sui risultati conseguibili da parte di un rivale, secondo un meccanismo di retroazione.
Nella teoria dei giochi un gioco a somma zero descrive una situazione in cui il guadagno o la perdita di un partecipante è perfettamente bilanciato da una perdita o un guadagno di un altro partecipante (se alla somma totale dei guadagni dei partecipanti si sottrae la somma totale delle perdite, si ottiene zero). Invece situazioni in cui i partecipanti possono guadagnare o perdere insieme sono indicati come non a somma zero. Ad esempio, se un paese con un eccesso di grano commercia con un altro paese che ha un eccesso di latte, entrambi trovano beneficio nella transazione: si è quindi di fronte a un gioco non a somma zero. Il beneficio della somma però non è detto che corrisponda al bene cercato: si vuole trattare il problema come un processo di massimizzazione dei risultati, cioè come un processo da cui trarre il maggior profitto, piuttosto che come un analisi etica dei valori da affermare nella regolamentazione tecnologica.
Detto con un esempio: una bomba atomica uccide molto di più che una pistola e forse fa vincere anche una guerra. Faccio molto fatica a definirla una buona soluzione politica, anzi una soluzione democratica…
Fonte: https://www.paolobenanti.com/post/democratic-ai
Commenti recenti