Il DNA è una collana di perle chiusa in uno spazio minuscolo. Per decenni abbiamo studiato la sequenza di queste perle: le basi A, T, C, G che formano il codice. Ma quello che conta davvero è come questa collana si ripiega. I loop, le pieghe, le strutture tridimensionali decidono quali geni si accendono e quali restano spenti. MIX-HIC è il primo modello multimodale di intelligenza artificiale che riesce a leggere questa architettura nascosta. Sissignori, il Genoma in 3D. Lo fa integrando due tipi di informazioni: le mappe che mostrano quali parti del DNA si toccano nello spazio (chiamate Hi-C) e i segnali chimici che indicano dove il DNA è accessibile (le tracce epigenomiche). Che significa? Vediamo insieme, con calma.
Il genoma 3D non è un dettaglio: è il meccanismo
Una cellula del fegato e un neurone hanno lo stesso DNA. Eppure fanno cose completamente diverse. Il segreto non sta nella sequenza, ma nella forma. Quando il DNA forma un loop cromatinico, avvicina regioni distanti del genoma. Un loop cromatinico è come un ponte molecolare che fa incontrare un interruttore e il gene che deve controllare. La forma è l’interruttore. Se il loop non si forma, il gene resta spento. Se si forma nel posto sbagliato, si accende quando non dovrebbe.
Studiare il genoma 3D è stato finora come ricostruire un puzzle con pezzi di scatole diverse. Gli scienziati avevano le mappe di contatto del DNA, che mostrano quali regioni si toccano nello spazio. Avevano anche le tracce epigenomiche, che rivelano dove il DNA è “aperto” e pronto per essere letto. Ma questi dati venivano analizzati separatamente, con metodi specializzati per compiti specifici. In pratica: si perdeva la visione d’insieme.

MIX-HIC impara due lingue e le sfumature di entrambe
Il team dell’Hong Kong University of Science and Technology ha sviluppato un sistema che cambia completamente l’approccio. MIX-HIC è stato addestrato su oltre 1,2 milioni di campioni appaiati di mappe Hi-C e tracce epigenomiche: il più grande dataset mai creato per lo studio del genoma 3D. L’architettura è ingegnosa: il sistema non “unisce” semplicemente i diversi tipi di dati. Impara a riconoscere sia le caratteristiche comuni a entrambe le modalità, sia quelle uniche di ciascuna. È tipo un traduttore che non solo conosce due lingue, ma capisce anche le sfumature culturali.
Nei test, MIX-HIC ha superato tutti i metodi esistenti in tre compiti fondamentali. Primo: predire come il DNA si organizzerà in 3D in diversi tipi di cellule, con miglioramenti fino al 9,3% rispetto ai migliori sistemi precedenti. Secondo: identificare i loop cromatinici con una precisione mai raggiunta prima. Terzo: prevedere quanto un gene sarà attivo, informazione essenziale per capire il funzionamento cellulare.
Quando mancano i dati, li immagina
I dati Hi-C sono costosi e difficili da ottenere. Spesso mancano. MIX-HIC risolve anche questo problema: grazie al suo addestramento approfondito, il sistema può “immaginare” come sarebbe organizzato il genoma 3D anche quando dispone solo delle tracce epigenomiche. È tipo un detective che ricostruisce la scena del crimine con pochi indizi, perché ha imparato da migliaia di casi precedenti. Questo approccio di “semantica unificata” permette al sistema di colmare le lacune nei dati sperimentali mantenendo l’accuratezza delle previsioni: ovviamente occorre una supervisione umana, non è l’Oracolo di Delfi, ma il risparmio in termini di tempo è immenso.
Le malattie non sono solo sequenze sbagliate
Molte malattie (dai tumori alle patologie genetiche rare) non sono causate da semplici errori nella sequenza del DNA, ma da problemi nell’organizzazione del genoma 3D. Un gene importante per sopprimere i tumori potrebbe essere “spento” perché la struttura 3D impedisce ai fattori regolatori di raggiungerlo. Oppure una mutazione potrebbe non cambiare un gene direttamente, ma alterare un loop cromatinico che lo controlla a distanza.
Con MIX-HIC, i ricercatori possono ora analizzare il genoma 3D di pazienti specifici per identificare questi problemi strutturali. Si apre la strada a diagnosi più precise: capire esattamente cosa non funziona nell’organizzazione del DNA di un paziente. E a terapie mirate che tengono conto non solo di quali geni sono mutati, ma di come l’intera architettura genomica è alterata. Come già sta accadendo nella nutrizione personalizzata, dove genomica e AI stanno rivoluzionando il modo in cui ci prendiamo cura della nostra salute.

Genoma 3D: amplifica le capacità, non le sostituisce
Il sistema accelera la ricerca di base: invece di condurre esperimenti lunghi e costosi per ogni tipo cellulare, i ricercatori possono usare MIX-HIC per esplorare virtualmente migliaia di scenari, identificando i più promettenti da testare in laboratorio. È uno strumento che democratizza l’accesso alla genomica di precisione, rendendola più rapida ed economica. I metodi sviluppati per modellare questi segnali deboli possono essere utilizzati anche in astronomia, difesa planetaria e monitoraggio dell’impatto della tecnologia umana sul nostro ambiente spaziale.
MIX-HIC è un esempio di come l’intelligenza artificiale possa amplificare le capacità umane nella ricerca scientifica. Non sostituisce gli scienziati: offre loro uno strumento per decifrare uno degli enigmi più complessi della biologia. Come la forma tridimensionale del nostro genoma orchestra la sinfonia della vita cellulare.
E quando la musica stona, magari potrà dirci cosa si può fare per riportarla in armonia.
