l’IA che trasforma i video in esperienze in prima persona
Rivedere The Dark Knight, non più come spettatori seduti davanti allo schermo, ma come se fossimo dentro l’azione. Non ammiriamo la figura iconica del Cavaliere Oscuro ritagliata nel cielo notturno sulla cima di un grattacielo: noi…siamo Batman! Non osserviamo il Joker mentre si muove tra le strade di Gotham: noi vediamo Gotham attraverso i suoi occhi. I palazzi ci circondano, la folla scorre attorno a noi, le luci della città si muovono illuminandoci gli occhi, proprio come accadrebbe se fossimo davvero lì.
Dalla Korea la realizzazione di un sogno
Per anni questa idea è rimasta confinata nei sogni di nerd cronici, nella fantasia di registi sperimentali e nel dietro le quinte di costose produzioni in realtà virtuale. Oggi, però, un gruppo di ricercatori del Korea Advanced Institute of Science and Technology (KAIST) sta cercando di trasformarla in realtà grazie a un nuovo modello di intelligenza artificiale capace di convertire normali filmati in video vissuti in prima persona.
Il sistema si chiama EgoX, ed è stato sviluppato dal team guidato da Jaegul Choo presso la Kim Jaechul Graduate School of AI. L’idea di fondo è semplice da descrivere ma estremamente complessa da realizzare: partire da un video tradizionale, girato in terza persona, e ricostruire ciò che vedrebbe realmente la persona presente nella scena.
Nel linguaggio della visione artificiale esistono due categorie fondamentali di immagini.
I video esocentrici sono quelli tradizionali: la telecamera osserva la scena dall’esterno.
I video egocentrici, invece, riproducono esattamente ciò che vede una persona, come accade con le action camera o con gli occhiali intelligenti.
Negli ultimi anni, con la crescita di tecnologie come la realtà virtuale e la realtà aumentata, i contenuti egocentrici sono diventati sempre più popolari. Tuttavia, ottenerli non è semplice. Servono dispositivi indossabili costosi, sistemi complessi con molte telecamere sincronizzate e software dedicati. Il nuovo modello sviluppato al KAIST tenta di superare questa barriera: generare automaticamente la prospettiva in prima persona partendo da un solo video standard.
Come spiega il professor Choo: “Questa ricerca è significativa in quanto l’intelligenza artificiale è andata oltre la semplice conversione video, arrivando ad apprendere e ricostruire la ‘visione’ e la ‘comprensione spaziale’ umana.”
In altre parole, il sistema non si limita a spostare o ruotare l’inquadratura. Cerca di capire come una persona percepisce realmente lo spazio intorno.
La prospettiva…l’annoso problema
Trasformare un video osservato dall’esterno in uno vissuto dall’interno è molto più difficile di quanto sembri. Quando la telecamera cambia punto di vista, molte parti della scena diventano improvvisamente invisibili, mentre altre compaiono all’improvviso.
Un algoritmo deve quindi affrontare due problemi contemporaneamente:
. ricostruire la geometria tridimensionale della scena,
. generare le parti dell’immagine che la telecamera originale non vedeva.
Nel loro studio, i ricercatori hanno progettato un framework che combina diversi elementi avanzati dell’intelligenza artificiale. Il sistema utilizza modelli generativi video basati sulla diffusione, adattati tramite tecniche di ottimizzazione “leggere”, e integra una strategia che fonde informazioni provenienti sia dalla prospettiva esterna sia da quella interna.
In pratica, il modello impara a correlare la postura del corpo, il movimento della testa e il campo visivo della persona nella scena. Questo gli consente di ricostruire in modo realistico ciò che quella persona avrebbe visto.
Uno degli elementi chiave del sistema è anche un meccanismo di auto-attenzione guidato dalla geometria, che permette all’algoritmo di concentrarsi sulle regioni spaziali più rilevanti dell’immagine, mantenendo coerenza visiva e prospettica.
Realismo con una sola telecamera
Una delle caratteristiche più sorprendenti di EgoX è la sua capacità di funzionare con una singola sorgente video.
In molte tecnologie precedenti erano necessarie quattro o più telecamere per ricostruire correttamente una scena tridimensionale. Anche quando il sistema funzionava, i risultati presentavano spesso artefatti visivi evidenti, soprattutto con movimenti rapidi o illuminazioni complesse.
Il modello sviluppato al KAIST, invece, riesce a generare video egocentrici coerenti e stabili anche in condizioni dinamiche. Il team ha testato la tecnologia in diversi contesti quotidiani: cucinare, allenarsi, lavorare alla scrivania. In tutti questi scenari il sistema è riuscito a riprodurre naturali cambiamenti del campo visivo, come quelli che avvengono quando una persona gira la testa o sposta lo sguardo.
Nuove possibilità per realtà virtuale e robotica
Le potenziali applicazioni della tecnologia sono numerose.
Nel campo della realtà virtuale e aumentata, EgoX potrebbe attingere da enormi archivi video tradizionali e trasformarli in contenuti immersivi. Eventi sportivi, vlog (video blog), documentari potrebbero essere rielaborati per offrire allo spettatore la sensazione di vivere la scena dall’interno.
Pensiamo, ad esempio, a una gara ciclistica vista direttamente dal punto di vista dell’atleta, oppure ad un tutorial di cucina osservato esattamente come lo vede lo chef mentre lavora.
Ma le implicazioni non si fermano all’intrattenimento.
Un altro ambito molto promettente è quello della robotica e dell’apprendimento imitativo. In questo contesto, i robot imparano osservando le azioni umane. Disporre di video che riproducono fedelmente la prospettiva della persona che compie l’azione può migliorare e semplificare significativamente l’efficacia di questo tipo di addestramento: i robot potrebbero imparare non solo cosa fa un essere umano, ma anche come percepisce l’ambiente mentre lo fa.
Un lavoro che attira l’attenzione del mondo
Il progetto è stato reso disponibile come preprint su arXiv nel dicembre 2025 e ha rapidamente attirato l’interesse sia della comunità accademica sia di grandi aziende tecnologiche.
La ricerca sarà presentata ufficialmente alla IEEE/CVF Conference on Computer Vision and Pattern Recognition, una delle conferenze più importanti al mondo nel campo della visione artificiale, che si terrà nel giugno 2026 in Colorado.
Secondo il professor Choo, questo è solo l’inizio: “Ci aspettiamo che si apra un ambiente in cui chiunque possa creare e sperimentare contenuti immersivi utilizzando solo video registrati in precedenza.”
Un futuro di video “in prima persona”?
Per oltre un secolo il cinema ha raccontato storie attraverso il “canonico” sguardo esterno: quello della telecamera. Anche quando i registi hanno cercato di simulare la prospettiva soggettiva, si è trattato sempre di un espediente narrativo fondamentalmente limitato.
Tecnologie come EgoX suggeriscono invece un possibile cambio di paradigma. Non si tratta più soltanto di mostrare una scena, ma di ricostruire l’esperienza percettiva di chi la vive.
Se questi sistemi continueranno a migliorare, la distinzione tra osservatore e protagonista potrebbe diventare sempre più sottile e forse, un giorno, quando guarderemo un film, non ci limiteremo più a seguire i personaggi sullo schermo.
Potremmo semplicemente entrare nella storia…e vedere il mondo attraverso i loro occhi.
by O. D. B.
Fonti:



