Pochi giorni fa avevamo parlato di un nuovo data leak rilevato nel dark web, riguardante la piattaforma social Twitter. Quest’oggi parliamo di un caso analogo che ha coinvolto Facebook ma, come vedremo, non casualmente anche Whatsapp.
Successivamente alla massiva fuga dei dati di Facebook avvenuta nel 2019 e comparsa su un noto marketplace del dark web agli inizi del 2021 oltre che su vari canali Telegram, voci di corridoio provenienti dagli stessi canali underground hanno annunciato qualche mese fa un altro furto di dati, questa volta ai danni di Whatsapp (sempre di proprietà del gruppo Meta), che avrebbe riguardato i numeri di cellulare di parte degli utenti registrati alla piattaforma di messagistica istantanea.
Quanto devono preoccuparsi gli oltre 2 miliardi di utenti Whatsapp nel mondo? Quanti e che tipo di nuovi dati sono stati esfiltrati e ad oggi sono reperibili in rete?
Certamente nel darkweb sono molte le fonti, canali e utenti che hanno negli ultimi tempi sponsorizzato la vendita (ricordiamolo, benché pleonastico, illegale) di questo presunto nuovo data leak di Whatsapp.
Data leak Whatsapp del 2022
Verso la fine del mese di Novembre 2022 pare sia stato rilasciato un database contenente solo numeri di cellulare (riconducibili a 108 paesi distinti), per un totale di 500 milioni di record (35 milioni circa di utenti Italiani); tali numeri sembrerebbero però in realtà provenire dalla precedente fuga di dati di Facebook del 2019 (della quale sarebbe sarebbe stato fatto una proiezione – SELECT in SQL – dei campi relativi alle utenze telefoniche) piuttosto che frutto di una nuova esfiltrazione.
All’epoca dei fatti del 2019 Facebook, tramite le sue API (Application Programming Interface), permetteva di correlare l’ID utente al numero cellulare utilizzato in fase di registrazione, un’operazione massiva di web scraping ha permesso di estrarre illecitamente dal social network vari record, secondo la seguente struttura (e, conseguentemente, campi esposti
NUMERO_CELLULARE:ID_UTENTE:NOME:SECONDO_NOME:SESSO:CITTA, STATO:INFO_VARIE, INFO_VARIE_1:INFO_VARIE_2:INFO_VARIE_3:INFO_VARIE_4:INFO_VARIE_5:
NUMERO_CELLULARE:ID_UTENTE:NOME:SECONDO_NOME:SESSO::::INFO_VARIE_2:::
Dalle prime informazioni reperite al tempo, i dati erano suddivisi per paese e venduti sia nel darkweb che in vari canali Telegram (già nella prima parte del 2019), tramite un “tariffario” che discriminava paese e numero di utenti coinvolti. La fuga di dati era composta da un totale di 533 milioni di utenti divisi in circa 61 paesi del mondo.
Per quanto riguarda l’Italia risultano essere stati coinvolti poco più di 35 milioni di utenze, i cui estremi erano divisi in blocchi di file di testo con un prezzo variabile tra i 500 ed i 1000 dollari per blocco. La dimensione complessiva dei dati non compressi ammonta a circa 3,05 Gb, con i quattro file costitutivi riuniti in un archivio denominato “Italy.zip” avente dimensione su disco di 1.066 Gb.

I record all’interno dei file utilizzano come carattere separatore i due punti, e ciascun file ha un massimo di 15 colonne per 35.676.914 milioni di righe. I numeri di cellulare (la prima colonna) iniziano con il prefisso internazionale “39” (a conferma del fatto che siano numeri di utenze italiane).
Riassumendo quanto finora detto, queste sono le caratteristiche rilevate circa la porzione di parte di data leak riguardante gli utenti italiani:
DATA DI CREAZIONE | INIZIO 2019 |
DATA DI PUBBLICAZIONE | APRIILE 2021 |
NOME ARCHIVIO | Italy.zip |
NOME/I FILE | 0.txt (Suffisso numerico crescente; da 0 a 4) |
FORMATO | TXT |
SEPARATORE | DUE PUNTI (:) |
COLONNE | MAX 15 |
COMPRESSIONE | ZIP |
PESO COMPRESSO (ITALIA) | 1.066 GB |
PESO NON COMPRESSO (ITALIA) | 3.05 GB |
RIGHE (FILE ITALIA) | 35.676.914M |
PAESI COINVOLTI | +- 61 |
DATI SENSIBILI | NUMERO CELLULARE (Relativo all’ iscrizione) |
TECNICA USATA | WEB SCRAPER TRAMITE UTILIZZO DELLE API DI FACEBOOK |
UTENTI COINVOLTI (ITALIA) | +- 35M |
UTENTI COINVOLTI (NEL MONDO) | +- 533M |
Nuova violazione della privacy o fake?
Al momento non vi sono informazioni per poter asserire con certezza se il data leak di Whatsapp di fine 2022 sia derivato da quello di Facebook del 2019 o sia invece frutto di una nuova esfiltrazione. I pareri nella comunità underground sono tuttora discordanti, ma quel che è certo è che molti ricettatori ad oggi spacciano tale data leak come nuovo ed indipendente dal precedente (i record, secondo quanto da questi affermato, comprenderebbero oltre ai numeri di cellulare anche nome, email e ulteriori informazioni sugli utenti, tutte non presenti nei record originali di Facebook 2019).

Non vi è certezza neanche sulla dimensione dei dati coinvolti (almeno per quanto riguarda l’Italia), dal momento che alcuni venditori parlano di 19 milioni di record mentre altri di 35 (lo stesso numero dell’esfiltrazione del 2019).


Aggiornamento (26 gennaio 2023):
Da ulteriori analisi, non si può ad oggi escludere che le utenze telefoniche esfiltrate siano in realtà da ricondursi anche da altre fughe di dati (non solo da quelle relative a Facebook 2019).
Per inciso, partendo da una base di numeri telefonici privi di informazioni addizionali, una delle tecniche di “arricchimento” dei dati verificate prevede l’uso proprio dell’applicativo Whatsapp – attraverso script che aggiungono automaticamente centinaia o migliaia di numeri alla rubrica – per effettuare l’associazione dei numeri ad altri dati sensibili come le foto del profilo o lo stato online.
E’ perciò certamente buona consuetudine controllare che le impostazioni della privacy blocchino la condivisione di tali informazioni sensibili con sconosciuti, anche bloccando la possibilità di inserimento in gruppi da parte di sconosciuti.
Come vengono utilizzate le ulteriori informazioni carpite?
Una volta verificata la presenza di informazioni aggiuntive quali ultimo accesso, nome utente, immagine del profilo etc. i dati vengono prelevati (attraverso tecniche di scraping che sfruttano l’interfaccia web di Whatsapp) ed inseriti in un nuovo database pronto per la vendita sul darkweb.
Potrebbero infine essere state usate anche altre tecniche di esfiltrazione, eventualmente anche sfruttando vulnerabilità non note o non ancora risolte da parte del social network (si pensi ad esempio banalmente all’uso di particolari stringhe di ricerca che, tempo addietro, hanno esposto dati privati sugli utenti direttamente nella ricerca Google, come scoperto dal ricercatore di sicurezza Athul Jayaram nel 2020).