Nella biologia, il DNA rappresenta l’alfabeto fondamentale della vita. È il codice che accomuna ogni organismo vivente: dagli esseri più piccoli come microscopici insetti e minuscoli anfibi, ai monumentali alberi millenari e i giganteschi cetacei dei mari, fino a noi esseri umani. Questo codice, in ogni suo filamento, è composto da milioni di coppie di nucleotidi, detentori molecolari delle informazioni genetiche. E l’RNA, “prodotto” dal DNA per produrre a sua volta le proteine (necessarie per poter catalizzare quelle reazioni biologiche che daranno vita alle informazioni contenute nel DNA) è a sua volta composto da altre decine di migliaia di coppie di nucleotidi. Il numero di combinazioni in cui possono fondersi questi nucleotidi per dare la vita ad un dato essere vivente è semplicemente, umanamente…inconcepibile.
Ma dove non può mente umana…
Una quantità di informazioni e combinazioni impossibile da interpretare correttamente per qualsiasi mente umana. Ma la soluzione viene presentata il 17 giugno scorso in una pubblicazione sulla rivista Berkeley Engineer: Evo 2.
Evo 2 è un innovativo modello di intelligenza artificiale sviluppato per leggere, interpretare e, potenzialmente, riscrivere il linguaggio della vita.
Secondo Patrick Hsu, professore associato di bioingegneria presso la UC Berkeley Research, “L’apprendimento automatico può assemblare modelli di ordine superiore a partire da enormi set di dati. L’intelligenza artificiale lo ha già fatto nel linguaggio naturale, nella visione e nella robotica. Ora lo stiamo facendo in biologia.”
Dopotutto, la biologia molecolare, con la sua infinita varietà di combinazioni genetiche, è il terreno ideale per applicare l’intelligenza artificiale. Infatti, proprio come ChatGPT genera testi in linguaggio umano, Evo 2 è stato progettato per “leggere” il DNA e l’RNA.
Un’ ambizione a 19 cifre!
Rilasciato nel febbraio 2025, Evo 2 è stato addestrato su un’enorme quantità di dati: 9,3 trilioni di nucleotidi provenienti da oltre 100.000 specie viventi. Si tratta del più grande modello di IA mai sviluppato per applicazioni biologiche.
Lo scopo è ambizioso: decifrare il comportamento delle sequenze genetiche e prevedere la loro influenza sulla salute umana. Questo lavoro si inserisce nell’attività dell’Arc Institute, un’organizzazione no-profit della Bay Area fondata dallo stesso Hsu insieme alla neuroscienziata Silvana Konermann.
L’obiettivo a breve termine? Capire quali mutazioni genetiche siano benigne e quali potenzialmente patogene.
Un esempio concreto è dato dal gene BRCA1, noto per il suo legame con il cancro al seno. Mentre alcune mutazioni sono chiaramente pericolose o innocue, molte restano “di significato sconosciuto”.
Come sottolinea Hsu: “Se hai una mutazione patogena, ti sottoponi a una mastectomia. E se hai una mutazione benigna, ti sottoponi a una mammografia annuale. Ma cosa fai se hai una variante di significato sconosciuto?”.
In questi casi, Evo 2 può intervenire con previsioni altamente accurate: il modello ha infatti raggiunto una precisione superiore al 90% nella classificazione della patogenicità delle mutazioni del gene BRCA1.
C’era una volta ChatGPT…
Come già accennato, il principio su cui si basa Evo 2 è simile a quello dei modelli linguistici di grandi dimensioni come ChatGPT.
“Un modello di apprendimento automatico prevede il token successivo, un termine che indica l’unità fondamentale di dati elaborata da un modello”, come spiega Hsu, “ChatGPT predice il carattere successivo e la parola successiva. Se gli chiedete di completare la frase ‘essere o non essere’… c’è un’altissima probabilità che ‘questo è il problema’ venga dopo. Perché Amleto. Ma cosa viene dopo in una sequenza di nucleotidi è meno chiaro. Se vi dessi una sequenza come ‘G, T, G, C, A, T, C’, predireste che la successiva sia ‘C’ o ‘G’? Non ne avreste idea, e nemmeno io. Ma un modello di intelligenza artificiale può catturare proprietà biologiche complesse basandosi solo sulla variazione di sequenza.”
Evo 2, infatti, è in grado di elaborare fino a un milione di nucleotidi contemporaneamente, identificando schemi, correlazioni e possibili relazioni causali tra geni e comportamenti cellulari. Questa capacità non solo consente di prevedere la pericolosità di una mutazione, ma anche di suggerire terapie e di comprendere le cause molecolari delle malattie.
Howard Chang, vicepresidente senior della ricerca globale presso la società biotecnologica Amgen, evidenzia un ulteriore vantaggio: “Se Evo 2 può dirci che una malattia si verifica perché una proteina è troppo attiva, sappiamo qual è il problema e possiamo provare a sviluppare un farmaco che lo affronti. Queste sono le possibilità che si aprono con Evo 2”. Chang sottolinea anche come questo tipo di strumento avrebbe potuto accelerare scoperte chiave del passato: “Quella svolta ha richiesto 60 anni di lavoro […] L’RNA messaggero è stato scoperto come entità biologica fondamentale nel 1961. Non avrebbe dovuto richiedere così tanto tempo”.
COVID-19: lezione fondamentale.
Il contesto storico è importante: durante la pandemia di COVID-19, la diffusione rapida dei vaccini a mRNA ha dimostrato quanto sia urgente ed efficace applicare la biotecnologia su larga scala. I creatori di Evo 2 sperano che il modello possa rendere questo tipo di reattività la norma, anziché l’eccezione.
Ma Evo 2 non è solo uno strumento predittivo, è anche un alleato nella pianificazione strategica della ricerca.
Hsu descrive la difficoltà del metodo scientifico tradizionale:
“Essere un ricercatore biomedico può essere come camminare nella natura selvaggia. Vedi una cima in lontananza e cammini verso di essa. Poi, dopo tre ore di cammino, ti rendi conto di non esserti avvicinato molto. E devi decidere se stai procedendo nella giusta direzione.”.
“Il tasso di fallimento degli studi clinici è del 90%. Quindi, spesso, stiamo semplicemente lavorando sul bersaglio farmacologico sbagliato”, afferma ancora Hsu. “L’intelligenza artificiale può aiutarci a trovare il bersaglio giusto in modo molto più efficace”.
Parola d’ordine: Efficienza.
L’efficienza è, per Hsu, una priorità: “…Si possono passare anni a lavorare sulla cosa sbagliata e poi non avere successo. Siamo andati molto lontano in biologia con qualcosa di simile a un’ipotesi e a una verifica”.
L’intelligenza artificiale offre invece un’opportunità decisamente allettante: passare dall’ipotesi alla previsione guidata dai dati, accorciando i tempi e riducendo drasticamente i margini di errore. Hsu è spinto, però, anche da una motivazione personale e profonda: la malattia neurodegenerativa di suo nonno, colpito dall’Alzheimer quando lui era ancora un ragazzino.
“Se si guarda un elenco delle cinque principali cause di morte negli Stati Uniti di 30 anni fa, si vedrà che sono le stesse di oggi: malattie cardiache, cancro, Alzheimer”, osserva, “Questa è una situazione piuttosto disastrosa Ciò implica che, nonostante la crescente ricerca biomedica e gli investimenti sempre maggiori, non stiamo facendo progressi sempre maggiori nella cura di queste malattie.”
Una medicina su misura.
Un futuro in cui strumenti come Evo 2 non solo aiutino a comprendere la biologia, ma anche a migliorarla. L’obiettivo è una medicina personalizzata.
Come conclude lo stesso Hsu: “Non vogliamo solo comprendere gli effetti di specifiche mutazioni genetiche e se siano vie di accesso alla malattia […] Vogliamo utilizzare Evo 2 per condurre studi di associazione genomica che sequenziano sia persone sane che persone malate per determinare quali mutazioni genetiche siano associate a una malattia e fornire informazioni più specifiche sul proprio rischio. Vogliamo comprendere meglio le combinazioni genetiche e integrarle con la cartella clinica e il genoma per fare previsioni più accurate sulla salute. E si spera prima possibile.”
Un futuro dove la medicina potrebbe non necessitare più di bugiardini così lunghi e angoscianti.
by O. D. B.
Fonti:
engineering.berkeley.edu/news/2025/06/cracking-the-code-of-life/



