La privacy online aveva una data di scadenza, ed è passata la settimana scorsa. Un gruppo di ricercatori dell’ETH di Zurigo e di Anthropic ha dimostrato che i modelli linguistici possono identificare utenti pseudonimi partendo dai loro commenti pubblici, con una precisione fino al 90%.
Il paper si chiama “Large-scale online deanonymization with LLMs” e dice una cosa che in molti sospettavano, ma che nessuno aveva ancora quantificato con questa brutalità: quello che prima richiedeva giorni di lavoro investigativo adesso si fa con un prompt e un agente autonomo.
Come funziona lo smascheramento
Dunque: l’agente IA legge i post pubblici di un utente anonimo, ne estrae segnali identitari (città, lavoro, hobby, stile di scrittura, perfino l’uso di un gergo dialettale o locale) e li trasforma in un profilo strutturato. Poi cerca candidati compatibili sul web usando corrispondenze semantiche che verifica con un suo metodo di valutazione. Un po’ come un investigatore privato, solo che non ha bisogno di dormire e lavora su migliaia di profili in parallelo.
I ricercatori (Simon Lermen di MATS Research, Daniel Paleka e altri dell’ETH di Zurigo, più Nicholas Carlini di Anthropic) hanno testato la pipeline su un gruppo di utenti collegati a profili LinkedIn: l’agente ha identificato correttamente il 67% dei bersagli con il 90% di precisione. Su Reddit, bastava che un utente avesse commentato dieci o più film nelle community dedicate per essere rintracciabile nel 48% dei casi. Il confronto con i metodi classici di deanonimizzazione (quelli ispirati al famoso Netflix Prize attack) è impietoso: le tecniche tradizionali si fermano quasi a zero.
Privacy online: l’economia dello smascheramento
Il punto che cambia tutto non è la tecnica (in fondo, un investigatore bravo poteva arrivarci anche prima): è il costo. Ogni identificazione costa tra 1 e 4 dollari. L’intero set di esperimenti del paper è costato meno di 2.000 dollari. Significa che deanonimizzare migliaia di utenti è alla portata di chiunque abbia una carta di credito e un motivo per farlo: un governo che vuole zittire i critici, un’azienda che vuole profilare clienti, uno stalker con qualche competenza tecnica.
Scheda dello Studio
- Ente di ricerca: MATS Research / ETH Zurich / Anthropic
- Ricercatori principali: Lermen, Paleka, Swanson, Aerni, Carlini, Tramèr
- Anno pubblicazione: 2026
- Rivista: arXiv (preprint)
- TRL (Technology Readiness Level): 6 – Validazione in ambiente rilevante (test su dataset reali)
- Link fonte: Paper completo su arXiv
I ricercatori lo dicono senza giri di parole: l’utente medio ha sempre operato partendo dal presupposto che lo pseudonimo bastasse, perché smascherarlo richiedeva uno sforzo sproporzionato. I modelli linguistici hanno reso quello sforzo trascurabile. Non servono superpoteri: servono gli stessi indizi che noterebbe un investigatore umano attento (la città menzionata di sfuggita, la conferenza citata, l’hobby di nicchia). Solo che l’IA li incrocia in pochi minuti, non in settimane.
Chi rischia di più (e cosa si può fare)
La privacy online non è mai stata una garanzia assoluta. Ma era una protezione pratica: nessuno investiva ore per smascherare un utente random su un forum. Adesso quel calcolo è saltato. E le categorie più esposte sono prevedibili: attivisti, whistleblower, sopravvissuti ad abusi, chiunque dipenda dall’anonimato per la propria sicurezza. I ricercatori hanno dimostrato di poter identificare perfino 9 su 125 scienziati in un dataset di interviste anonimizzate condotte da Anthropic, partendo solo dalle descrizioni dei loro progetti di ricerca.
Le contromisure proposte dal paper sono oneste nella loro modestia: limitare l’accesso API ai dati degli utenti, rilevare lo scraping automatizzato, impedire esportazioni massive. Tutte cose utili, nessuna risolutiva. Insomma: alzano il costo dell’attacco, ma non lo prevengono. La protezione più efficace resta la più scomoda: condividere meno. Molto meno. Compartimentare le identità: piattaforme diverse, interessi diversi, stili di scrittura diversi. Un po’ come la vecchia regola delle spie, quella di non usare mai lo stesso nome di copertura in due paesi.
Approfondisci
Ti interessa il tema della sorveglianza digitale? Leggi anche come la tecnologia quotidiana è passata da comoda a obbligatoria. Oppure scopri cosa succede con 2 milioni di smartglasses in circolazione e come il confine tra pubblico e privato si sta dissolvendo.
Il paradosso, se ci pensate, è che questo articolo lo state leggendo su un dispositivo che vi identifica, da una connessione che vi localizza, su una piattaforma che analizza quanto tempo passate su ogni riga.
La privacy online non è morta di colpo: si è consumata un commento alla volta, un “accetto i termini” alla volta, un film consigliato alla volta, un “tanto io non ho nulla da temere” alla volta.
L’IA ha solo reso visibile quello che era già vero da un pezzo.