Un gruppo di ricercatori della DTU danese ha sviluppato PathogenFinder2, un modello di intelligenza artificiale capace di analizzare l’intero genoma di un batterio e stabilire se possiede le caratteristiche genetiche per causare malattie nell’uomo. Il sistema, addestrato su oltre 21.000 genomi batterici, non si limita a confrontare il campione con batteri patogeni già noti: usa modelli linguistici proteici per leggere segnali biochimici invisibili ai metodi tradizionali.
Lo studio è stato pubblicato su Bioinformatics e lo strumento è anche già disponibile gratuitamente online.
Batteri patogeni, il problema dei “fantasmi”
La maggior parte dei batteri che ci circondano è innocua (molti sono persino utili: digestione, pelle, produzione alimentare). Una frazione piccola, però, può causare infezioni gravi. Il guaio è che cambiamento climatico e crescente esplorazione della biodiversità microbica ci mettono di fronte a specie mai documentate prima, e a un ritmo che accelera.
Capire se un batterio sconosciuto sia pericoloso richiedeva fino a ieri esperimenti di laboratorio lenti, costosi e spesso incoerenti tra loro. Gli approcci computazionali più recenti aiutavano, ma con un limite strutturale: funzionavano solo se il batterio somigliava a qualcosa di già catalogato. Nessun parente noto, nessuna previsione. Ecco: PathogenFinder2 cambia esattamente questo.
Come funziona (e perché è diverso)
Il modello introduce una strategia che non dipende dalla somiglianza con specie conosciute. Usa i cosiddetti protein language models, sistemi di intelligenza artificiale addestrati su milioni di sequenze proteiche. Il principio è lo stesso dei modelli che predicono il testo: così come un LLM impara i pattern del linguaggio umano, questi modelli imparano il “linguaggio” delle proteine e rilevano segnali biochimici che i metodi tradizionali non colgono.

Scheda studio
Titolo: Whole-genome prediction of bacterial pathogenic capacity on novel bacteria using protein language models with PathogenFinder2
Autori: Alfred Ferrer Florensa, Jose Juan Almagro Armenteros, Rolf Sommer Kaas, Philip Thomas Lanken Conradsen Clausen, Henrik Nielsen, Burkhard Rost, Frank M. Aarestrup
Istituzione: DTU National Food Institute, Danimarca
Rivista: Bioinformatics, marzo 2026
DOI: 10.1093/bioinformatics/btag129
I numeri dello studio
- 21.000 genomi batterici nel dataset di addestramento, il più grande mai assemblato per questo tipo di analisi
- Batteri patogeni provenienti da infezioni umane, insieme a campioni dal microbioma sano, colture probiotiche, produzione alimentare e ambienti estremi
- Il modello supera tutti i predecessori, soprattutto quando incontra specie mai viste prima
- Lo strumento è parte della Global Pathogen Analysis Platform ed è accessibile come servizio online gratuito
La mappa che non esisteva
PathogenFinder2 non si limita a dire “pericoloso” o “innocuo”. Evidenzia le proteine specifiche che influenzano di più la sua valutazione: tossine note, strutture di adesione cellulare, ma anche proteine completamente sconosciute che potrebbero avere un ruolo nelle infezioni. Questo apre strade nuove per diagnostica, vaccini e meccanismi infettivi ancora inesplorati.
I ricercatori hanno costruito anche la prima Bacterial Pathogenic Capacity Landscape: una mappa che mostra come migliaia di batteri patogeni si relazionano tra loro in base alle caratteristiche legate alla malattia. La mappa rivela gruppi di batteri che infettano tessuti simili o condividono strategie metaboliche, offrendo un nuovo modo di studiare l’evoluzione microbica.
Come spiega Alfred Ferrer Florensa, che ha sviluppato il modello durante il suo dottorato alla DTU: il Landscape fornisce la prima panoramica di tutti i batteri patogeni in grado di infettare l’uomo, e può mostrare quali tendono a colpire gli stessi organi o a usare nutrienti simili.
Il punto scomodo (e quello promettente)
PathogenFinder2 può analizzare acque reflue, animali sani e campioni umani per individuare batteri patogeni con potenziale infettivo prima che abbiano causato il primo contagio. Questo darebbe alle autorità sanitarie la possibilità di sviluppare test, vaccini e trattamenti con un anticipo che finora era semplicemente impossibile.
I ricercatori ci tengono a precisare che il modello indica pattern e rischi possibili, non certezze diagnostiche: i risultati vanno esaminati ulteriormente prima di trarre conclusioni definitive. È il solito “ma” della ricerca, solo che stavolta il “ma” pesa meno del solito. Perché la differenza tra reagire a una pandemia e prevenirla sta esattamente qui: nella capacità di vedere un problema prima che diventi visibile a occhio nudo.
La lotta ai batteri patogeni si gioca ormai su più fronti, dalla ricerca di antibiotici nei fondali dell’Artico alla sintesi computazionale di nuove molecole fino ai nanosistemi inalabili che portano i farmaci direttamente dove il batterio si nasconde.
PathogenFinder2 aggiunge un tassello diverso: non cura, non uccide. Guarda, legge e avvisa. A volte è la cosa più utile che si possa fare.