AlphaFold: tra potenzialità e rischi

di Leonardo Zocca · Pubblicato 2 Agosto 2021 · Aggiornato 30 Luglio 2021

di Paolo Benanti

DeepMind e l’European Bioinformatics Institute (EMBL), un laboratorio di scienze della vita con sede a Hinxton, in Inghilterra, hanno annunciato il 22 luglio 2021 il lancio di quello che affermano essere il database più completo e accurato di strutture per le proteine espresse dal genoma umano. In una conferenza stampa congiunta ospitata dalla rivista Nature , le due organizzazioni hanno affermato che il database, l’AlphaFold Protein Structure Database, che è stato creato utilizzando il sistema AlphaFold 2 di DeepMind, sarà reso disponibile alla comunità scientifica nelle prossime settimane (il progetto è su questa pagina di GitHub). Uno strumento che può donarci nuovi potentissimi farmaci e nuove conoscenze del nostro corpo ma anche terribili armi biologiche

La ricetta per le proteine — grandi molecole costituite da amminoacidi che sono i mattoni fondamentali di tessuti, muscoli, capelli, enzimi, anticorpi e altre parti essenziali degli organismi viventi — è codificata nel DNA. Sono queste definizioni genetiche che circoscrivono le loro strutture tridimensionali, che a loro volta determinano le loro capacità. Ma il “folding” proteico, come viene chiamato, è notoriamente difficile da capire da una sola sequenza genetica corrispondente. Il DNA contiene solo informazioni sulle catene di residui di amminoacidi e non sulla forma finale di quelle catene.

Sopra: una struttura proteica della tubercolosi prevista da AlphaFold 2.

Nel dicembre 2018, DeepMind ha tentato di affrontare la sfida del ripiegamento delle proteine con AlphaFold, il prodotto di due anni di lavoro. Il suo successore, AlphaFold 2, annunciato nel dicembre 2020, lo ha migliorato per superare i metodi di previsione del ripiegamento delle proteine concorrenti. Nei risultati della 14a valutazione CASP (Critical Assessment of Structure Prediction), AlphaFold 2 presentava errori medi paragonabili alla larghezza di un atomo (o 0,1 di un nanometro), competitivi con i risultati dei metodi sperimentali.

“Il database AlphaFold mostra il potenziale dell’intelligenza artificiale per accelerare profondamente il progresso scientifico. Non solo il sistema di apprendimento automatico di DeepMind ha notevolmente ampliato la nostra conoscenza accumulata delle strutture proteiche e del proteoma umano durante la notte, ma le sue profonde intuizioni sugli elementi costitutivi della vita sono promesse straordinarie per il futuro della scoperta scientifica “, ha affermato Sundar Pichai, CEO di Alphabet e Google, in un comunicato stampa.

Strutture proteiche illuminanti

AlphaFold 2 trae ispirazione dai campi della biologia, della fisica e dell’apprendimento automatico, sfruttando il fatto che una proteina ripiegata può essere pensata come un “grafico spaziale” in cui i residui di amminoacidi (amminoacidi contenuti all’interno di un peptide o di una proteina) sono nodi e bordi collegano i residui in stretta vicinanza. AlphaFold 2 sfrutta un algoritmo AI che tenta di interpretare la struttura di questo grafico mentre ragiona sul grafico implicito che sta costruendo, utilizzando sequenze correlate evolutivamente, allineamento di sequenze multiple e una rappresentazione di coppie di residui di amminoacidi.

In un codice open source pubblicato la scorsa settimana, DeepMind ha notevolmente semplificato AlphaFold 2. Mentre il sistema close-source ha impiegato giorni di tempo di calcolo per generare strutture, la versione open source è circa 16 volte più veloce e può produrre strutture in pochi minuti o ore, a seconda la dimensione della proteina.

Questi miglioramenti hanno permesso a DeepMind e all’EMBL di creare più di 350.000 previsioni sulla struttura proteica, incluso il proteoma umano (che comprende 20.000 proteine), più che raddoppiando il numero di strutture ad alta precisione a disposizione dei ricercatori. Oltre a ciò, DeepMind ed EMBL hanno utilizzato AlphaFold 2 per prevedere le strutture di altri 20 “organismi biologicamente significativi”, producendo oltre 350.000 strutture in totale per E. coli, moscerini della frutta, topi, pesci zebra, lieviti, parassiti della malaria, batteri della tubercolosi e altro ancora . Il piano è quello di espandere la copertura a oltre 100 milioni di strutture man mano che i miglioramenti sia ad AlphaFold 2 che al database saranno online.

Sopra: la previsione di AlphaFold 2 di una proteina parassita della malaria.

“Questo sarà uno dei set di dati più importanti dalla mappatura del genoma umano”, ha dichiarato in una nota il vicedirettore generale dell’EMBL Ewan Birney. “Rendere le previsioni di AlphaFold 2 accessibili alla comunità scientifica internazionale apre tante nuove strade di ricerca, dalle malattie trascurate ai nuovi enzimi per la biotecnologia e tutto il resto. Questo è un nuovo grande strumento scientifico, che integra le tecnologie esistenti e ci consentirà di allargare i confini della nostra comprensione del mondo”.

Alcuni scienziati avvertono che AlphaFold 2 non è probabilmente la soluzione definitiva quando si tratta di predire la struttura delle proteine. Steven Finkbeiner, professore di neurologia presso l’Università della California, San Francisco, ha dichiarato a Wired in un’intervista che è troppo presto per dire le implicazioni per la scoperta di farmaci, data l’ampia variazione nelle strutture all’interno del corpo umano. Ma DeepMind sostiene che AlphaFold 2, se ulteriormente perfezionato, potrebbe essere applicato a problemi precedentemente intrattabili, compresi quelli relativi agli sforzi epidemiologici. L’anno scorso, la società ha previsto diverse strutture proteiche di SARS-CoV-2, tra cui ORF3a, la cui composizione era precedentemente un mistero.

Sopra: una proteina di lievito, ancora una volta prevista da AlphaFold 2.

DeepMind afferma di essere impegnata a rendere AlphaFold 2 disponibile “su larga scala” e a collaborare con i partner per esplorare nuove frontiere, come il modo in cui più proteine formano complessi e interagiscono con DNA, RNA e piccole molecole. All’inizio di quest’anno, la società ha annunciato una partnership con la Drugs for Neglected Diseases Initiative , con sede a Ginevra , un’organizzazione farmaceutica senza scopo di lucro che spera di utilizzare AlphaFold per identificare composti per il trattamento di condizioni per le quali i farmaci rimangono elusivi. Il Center for Enzyme Innovation sta utilizzando il sistema per aiutare a progettare enzimi più veloci per il riciclaggio di plastiche monouso inquinanti. E i team dell’Università del Colorado Boulder e dell’Università della California, San Francisco stanno studiando la resistenza agli antibiotici e la biologia SARS-CoV-2 con AlphaFold 2.

“Le proteine sono come minuscole macchine biologiche squisite. Allo stesso modo in cui la struttura di una macchina ti dice cosa fa, così la struttura di una proteina ci aiuta a capirne la funzione. Le proteine sono come minuscole macchine biologiche squisite. Allo stesso modo in cui la struttura di una macchina ti dice cosa fa, così la struttura di una proteina ci aiuta a capire la sua funzione”, ha scritto il CEO di DeepMind Demis Hassabis in un post sul blog pubblicato oggi. “In DeepMind, la nostra tesi è sempre stata che l’intelligenza artificiale può accelerare notevolmente le scoperte in molti campi della scienza e, a sua volta, far progredire l’umanità. Abbiamo creato AlphaFold e l’AlphaFold Protein Structure Database per supportare ed elevare gli sforzi degli scienziati di tutto il mondo nell’importante lavoro che svolgono.

Alcune problematiche

Le proteine sono nanomacchine complesse che svolgono la maggior parte dei compiti negli esseri viventi interagendo costantemente tra loro. Digeriscono il cibo, combattono gli invasori, riparano i danni, percepiscono l’ambiente circostante, trasportano segnali, esercitano forza, aiutano a creare pensieri e si replicano. Sono fatti di lunghe stringhe di molecole più semplici chiamate amminoacidi, e si attorcigliano e si piegano in strutture 3D enormemente complesse. Le loro forme simili a origami sono governate dall’ordine e dal numero dei diversi aminoacidi usati per costruirli, che hanno forze attrattive e repellenti distinte. La complessità di queste interazioni è così grande e la scala così piccola (la cellula media contiene 42 milioni di proteine) che non siamo mai stati in grado di capire le regole che governano come si contorcono spontaneamente e in modo affidabile dalle stringhe alle cose. Molti esperti pensavano che non l’avremmo mai fatto.

Ma nuove intuizioni e scoperte nell’intelligenza artificiale stanno costringendo, o costringendo, le proteine a rivelare i loro segreti. Gli scienziati stanno ora forgiando strumenti biochimici che potrebbero trasformare il nostro mondo. Con questi strumenti, possiamo usare le proteine per costruire nanobot in grado di coinvolgere malattie infettive nel combattimento di una singola particella, o inviare segnali in tutto il corpo, o smantellare molecole tossiche come minuscole unità repo, o raccogliere luce. Possiamo creare la biologia con uno scopo.

Per tutto il giorno le nostre cellule producono nuove proteine nell’esatto ordine di amminoacidi dettato dal nostro codice genetico, e le proteine si adattano spontaneamente. Quella forma, insieme alle cariche degli atomi sui bit esposti, determina la funzione: a cosa rispondono, a cosa si attaccano, cosa possono fare. Quando diciamo “Ha il gene per i capelli rossi”, significa che ha il progetto per le proteine che portano a un particolare tipo di pigmento. Quando diciamo: “Ha un gene che causa il cancro al seno”, significa che ha una mutazione in un gene che fa sì che la sua proteina venga prodotta con un amminoacido errato, che ne rovina la funzione in un modo che può portare al cancro .

Comprendere i meccanismi del ripiegamento delle proteine ci permetterebbe di progettare nuove classi di farmaci che potrebbero zoppicare o sostituire le proteine che non funzionano correttamente e di sondare l’eziologia di malattie come l’Alzheimer, il Parkinson, l’Huntington e la fibrosi cistica, che sono legate a proteine deformi.

Sfortunatamente, poiché le proteine sono così piccole, è quasi impossibile dire cosa sta succedendo in questo nanomondo, anche con potenti microscopi. Non sappiamo esattamente come tutte queste proteine si ripiegano correttamente, tanto meno cosa va storto quando si ripiegano male. Possono essere necessari un anno e $ 120.000 per produrre un’immagine ad alta risoluzione di una proteina su apparecchiature specializzate. Attualmente conosciamo le strutture di appena lo 0,1 percento di esse. Per il resto, supponiamo. Ecco perché c’è un mistero al centro della rivoluzione genetica: alcune sequenze genetiche sono associate a effetti fisici e mentali, ma spesso non sappiamo dire perché. Ci mancava la stele di Rosetta della struttura proteica per tradurre tra il punto iniziale dei geni e il punto finale delle funzioni corporee.

Sebbene vi sia un grande ottimismo riguardo alla tecnologia, alcuni ricercatori in biosicurezza hanno espresso preoccupazione per le proteine che potrebbero essere progettate per scopi nefasti. I prioni, ad esempio, responsabili della “mucca pazza” e di altre malattie neurodegenerative, sono proteine mal ripiegate che a loro volta provocano il mal ripiegamento di altre proteine, innescando reazioni a catena mortali che sono trasmissibili; potrebbero essere erogati tramite aerosol. La Convenzione sulle armi biologiche, che praticamente tutte le nazioni hanno firmato, vieta di fatto lo sviluppo o l’uso di armi biologiche a base di agenti patogeni, ma nessuno ha mai pensato di estenderla per affrontare proteine che non hanno mai fatto parte di un organismo.

“Questa è una vera preoccupazione”, afferma l’esperta di biosicurezza Filippa Lentzos del King’s College di Londra, “perché le potenziali armi biologiche future non necessariamente ci faranno ammalare usando agenti patogeni”. Le mini proteine sintetiche possono o meno rientrare nel controllo della convenzione, afferma, “quindi lo status legale è una questione importante”.

Ma le mini proteine ingegnerizzate sono anche una minaccia estremamente improbabile, afferma Lentzos, e piuttosto in basso nella sua lista di preoccupazioni: “Se vuoi causare danni, perché dovresti rivolgerti a qualcosa di così sofisticato e complicato come la progettazione di proteine? Ci sono molte cose più accessibili in natura che potresti usare.” Le tossine e gli agenti patogeni presenti in natura sono già pronti e ovunque. Se vuoi davvero ferire le persone, ci sono modi più semplici.

Tuttavia ancora una volta ci accorgiamo che lo stesso artefatto tecnico può essere uno strumento per il bene o un’arma. La questione è decisamente etica

Fonte: https://www.paolobenanti.com/post/alphafold-tra-potenzialit%C3%A0-e-rischi

Iscriviti al nostro canale Telegram