L’Intelligenza Artificiale impara a ricordare: da come trovare le chiavi di casa alla rivoluzione della produttività industriale e la sicurezza
di SCENARI ECONOMICI (Canale Substack)

I ricercatori del MIT hanno creato DAAAM, una memoria spazio-temporale che permette ai robot di ricordare dove si trovano gli oggetti in tempo reale.
Quante volte vi è capitato di non trovare le chiavi di casa? Un essere umano, per quanto distratto, possiede una mappa mentale dello spazio e del tempo: ricorda di averle appoggiate sul tavolo della cucina la sera prima e, a colpo sicuro, va a recuperarle. Se questa memoria non si è creata giriamo come dei fessi per casa a cercarle. Per noi la generazione di questi ricordi è un’operazione banale, quasi inconscia. Per un robot o un’Intelligenza Artificiale, fino a ieri, questa memoria “spazio-temporale” rappresentava un ostacolo insormontabile. Senza una memoria contestuale, una macchina è costretta a scansionare l’intero ambiente da zero, pixel per pixel, con un dispendio enorme di potenza di calcolo e, soprattutto, di tempo. E nell’economia reale, il tempo è denaro.
Se la perdita delle chiavi di casa è un fastidio domestico, immaginate lo stesso problema su scala industriale. Un’operaia in una catena di montaggio sa perfettamente dove ha lasciato un componente parzialmente assemblato alla fine del turno. Un braccio robotico o un automa logistico che lavora al suo fianco, invece, faticherebbe enormemente a elaborare una direttiva del tipo: “vai a prendere il componente che abbiamo iniziato ad assemblare ieri sera”. La mancanza di questa memoria contestuale ha rappresentato, finora, un pesante limite alla produttività e ha fortmente limitato molte applicazioni industriali, oltre che costituire un problema di sicurezza.
Oggi, tuttavia, un team di ricercatori del MIT (composto da Nicolas Gorlo, Lukas Schmid e Luca Carlone) ha presentato una soluzione che potrebbe cambiare le carte in tavola.
Il framework DAAAM: descrivere tutto, ovunque e in qualsiasi momento
Il problema principale dei sistemi di visione artificiale attuali è un fastidioso trade-off tecnico: o sono veloci ma “stupidi” (usano vocabolari chiusi e non capiscono i dettagli), oppure sono incredibilmente precisi ma lentissimi, incompatibili con il tempo reale.
Per superare questo collo di bottiglia, i ricercatori hanno sviluppato un framework chiamato DAAAM, acronimo di Describe Anything, Anywhere, at Any Moment. Si tratta di un sistema di memoria spazio-temporale che permette a un robot di mappare geometricamente l’ambiente in 3D e, simultaneamente, di “attaccare” descrizioni semantiche dettagliate agli oggetti che incontra.
Come funziona nella pratica? Mentre l’automa si muove nell’ambiente, non analizza minuziosamente ogni singolo fotogramma (il che saturerebbe i server e farebbe crollare i tempi di reazione). Al contrario, DAAAM raggruppa i frammenti visivi e utilizza un algoritmo di ottimizzazione per selezionare solo i fotogrammi chiave in cui gli oggetti sono chiaramente visibili. A quel punto, il sistema invia le immagini “a pacchetti” (in batch) a un modello linguistico-visivo di grandi dimensioni per farsi descrivere l’ambiente in un colpo solo.
Questo trucco computazionale aumenta la velocità di inferenza di un ordine di grandezza , permettendo al sistema di operare in tempo reale a 10 Hz. In sostanza, il robot processa il mondo alla stessa velocità con cui ci si muove.
Le ricadute economiche: efficienza e agenti generalisti
Dal punto di vista macroeconomico e industriale, l’innovazione è rilevante. I dati parlano chiaro: nei complessi compiti di spatio-temporal question answering (SQA), ovvero l’interrogazione del robot sull’ambiente circostante, DAAAM ha migliorato l’accuratezza delle risposte del 53,6% rispetto alle tecnologie precedenti , riducendo drasticamente gli errori di posizionamento e le inesattezze temporali.
Le applicazioni pratiche sono immediate. In una fabbrica, un robot equipaggiato con DAAAM può rispondere in tempo reale a domande formulate in linguaggio naturale come “dove e quando hai visto l’ultima volta il cacciavite rosso?”. La macchina interroga il proprio “grafo di scena 4D” e recupera l’informazione esatta, azzerando i tempi morti di ricerca.
Oltre alla manifattura, la tecnologia si presterà all’uso nei sistemi di Realtà Aumentata (AR) per guidare i manutentori nella rilevazione di anomalie industriali o per ottimizzare la logistica di magazzino. Avere macchine capaci di memorizzare la disposizione dello spazio e la linea temporale degli eventi significa abbattere i costi di supervisione umana e rendere il capitale tecnologico finalmente flessibile, capace di adattarsi agli imprevisti senza dover essere riprogrammato per ogni minima variazione della linea produttiva. Immaginate poi di applicarlo in sala operatoria: a termine di un’operazione chirurgica potrebbe confermare o meno la posizione di ogni pezzo chirugico.
Alla fine, l’intelligenza artificiale non si limiterà a scrivere poesie o riassumere documenti. Troverà le nostre chiavi di casa, certo. Ma, fatto ben più importante, fornirà al nostro tessuto industriale quegli “agenti generalisti” in grado di sostenere la produttività in un’epoca di profonde sfide demografiche ed economiche.





Commenti recenti