Nella nostra disamina di fughe di dati – più o meno note al grande pubblico – che hanno (o potrebbero in futuro) avere conseguenze severe sulla privacy degli utenti, abbiamo visto già trattato gli episodi riguardanti giganti come Facebook e Whatsapp di proprietà di Meta, ma anche il social network Twitter, recentemente acquisito da Elon Musk.
Il caso

Quest’oggi ci occupiamo invece di una piattaforma streaming, meno diffusa in Italia rispetto al leader di mercato Spotify, ma che conta ad ogni modo milioni di utenti, anche italiani: Deezer. Nella fattispecie, il servizio di streaming musicale on demand fondato a Parigi nel 2007 è stato presumibilmente vittima di un data leak di notevoli dimensioni, dato che (a detta degli hacker attaccanti) l’intero database della società è stato messo in vendita lo scorso 24 dicembre in un noto forum underground.
La società ha annunciato di esserne venuta a conoscenza l’8 novembre 2022, dichiarando tra l’altro che i dati trafugati provenissero da un backup del 2019 – gestito da una terza parte con cui la collaborazione si è chiusa già dal 2020 – e che non contenessero dati sensibili ma solo anagrafica di base e indirizzi email.
Analisi strutturale dei file rinvenuti nel darkweb
Il leak è condiviso attraverso un compresso di estensione .7z e dal peso complessivo di quasi 30 Gb. All’interno dell’archivio sono presenti 3 file CSV, dal rispettivo nome di: Profile_2019_04_15, session_web e User.csv.
La dimensione non compressa è di circa 50 Gb per file ed è inoltre presente una cartella chiamata final_split contenente 105 parti di file .csv da circa 1 Gb di dimensione[1]. Il file .csv in questione consta di 134 colonne.
L’archivio nel suo complesso presenta la seguente struttura:

Sempre osservando i nomi dei file, si evidenzia come dopo il termine “tid” (acronimo probabilmente di Thread Identifier) vi sia un numero, che potrebbe corrispondere al cosiddetto timestamp (indicativo di uno specifico momento temporale). I file dopo “part-numero-tid-” riportano il tutti il timestamp “1633079247229953688” che presumibilmente è la data e l’orario dell’ultima manipolazione (esportazione) dei dati a partire da un differente archivio o un database iniziale.
Operando una conversione del timestamp con un applicativo idoneo (come ad esempio la web app Epoch converter[2] la data corrispondente al timestamp “1633079247229953688” risulta pari a: “Venerdi 1 Ottobbre 2021 09:07:27.229”. Ciò indica con tutta probabilità il momento in cui i file sono stati per l’appunto esportati dall’archivio in cui erano originariamente contenuti.
Gli utenti esposti nel file User.csv in totale sono 257.829.454 tra cui 5.535.434 utenti italiani.
Considerato il numero di colonne (e quindi i relativi campi dati associabili al singolo utente) presenti nei file nonché la mole di righe (numero di utenti complessivi) il leak è definibile in gergo nel black market come high quality.
Tra i dati piu rilevanti si evidenzierebbero email, nomi e cognomi, indirizzi IP, data di nascita, riferimenti geografici di città e stati di appartenenza, sesso, username, data di iscrizione, tipologia di dispositivo utilizzato, sistema operativo, statistiche di sessione circa l’utilizzo sia da mobile che desktop.
Nota di contorno: si rileva come, all’interno delle stesse comunità che hanno diffuso il leak, nel periodo immediatamente antecedente la pubblicazione vi è stato un incremento del numero di data leak riguardanti utenze francesi; ciò potrebbe rappresentare un indicatore di un primo tentativo di vendita dei dati “sfusi”, forse aggregati a data leak di diversa provenienza (gli utenti francesi rappresentano la nazionalità prevalente del leak, con circa 49 milioni di righe).
Analisi di header e record dei file
Dopo una descrizione della struttura dell’archivio, entriamo nel dettaglio della costituzione di header e record dei singoli file.
La prima pubblicazione del data leak, come detto, sembra risalire al 6 novembre 2022. Ciò è dimostrato anche dal post scritto dall’hacker che ne rivendica il possesso.

Header: campi rinvenuti
Cartella final_split
I 105 file contenuti sono segmenti di un unico archivio e presentano tutti la stessa struttura. Complessivamente, si contano 134.855.164 record e 134 colonne.

File Profile_2019_04_15
Il file Profile_2019_04_15 consta di 46.901.685 righe e 138 colonne.

I quasi 47 milioni di utenti esposti nel file sembrerebbero utenti che hanno sottoscritto un piano di abbonamento successivamente alla registrazione, come si potrebbe dedurre dalla colonna CurrentOffer.
Sono anche visibili le colonne relative alle statistiche di utilizzo dell’applicazione (comprensive di brani musicali, artisti preferiti, tempi di ascolto, sessioni di utilizzo, categorie, sottocategorie, offerte commerciali etc.).
File session_web
Il file session_web si compone di 242.760.434 righe e 10 colonne.

Il file session.csv sembrerebbe riferirsi alle sessioni effettuate (utilizzando l’applicazione) dagli utenti: l’archivio ne traccia sistema operativo, indirizzo IP e device.
Gli utenti sono identificati da un customer_id, che li identifica con un un numero intero progressivo. Tale identificativo non è chiave primaria, in quanto risultano più record (sessioni) associati allo stesso custumer_id.
File User.csv
Infine il file User.csv conta 257.829.454 righe e 62 colonne.

Il file User sembrerebbe includeretutti gli utenti transitati nella piattaforma: indipendentemente dalla sottoscrizione di un piano di abbonamento, la loro esposizione è correlata all’avvenuta registrazione.
Per ogni utente, sono esposte le seguenti informazioni rilevanti: email, data di nascita, nome, cognome, paese di origine, dati relativi all’utilizzo dell’applicazione (data di registrazione, eventuali rinnovi e scadenze) etc.
Alcune statistiche
Da alcuni campionamenti, è possibile ipotizzare una proiezione statistica che consenta un rudimentale censimento delle tipologie di utenza coinvolte:
- Windows è il sistema operativo più utilizzato, seguito da Android e iOS;
- le tre città di origine più ricorrenti sono rispettivamente: Parigi, Lione e Tolosa (a conferma del fatto che la maggior parte degli utenti coinvolti siano di nazionalità francese);
- i paesi di origine più presenti in ordine decrescente sono: Francia, Usa, Gran Bretagna, Brasile, Germania, Belgio, Spagna, Italia;
- Nicolas, Julien, David e Thomas sono i nomi più diffusi (tutti di presumibile origine francofona);
- la lingua più utilizzata per la registrazione è l’inglese seguita da francese, spagnolo, tedesco e italiano.
In breve
Come confermato da Deezer stessa, il data leak è uno snapshot, ossia un’istantanea che fotografata lo stato dei sistemi in un determinato momento (con dettaglio degli utenti e delle loro attività).
Non sarebbero coinvolte informazioni che possano ricondurre a carte di pagamento, transazioni e password. Il data leak proverrebbe da un backup trapelato nel 2019 da una terza parte non più sotto contratto (effettivamente le ultime iscrizioni contenute nel leak sembrano riferirsi ad aprile 2019).
Il primo riscontro del tentativo di vendita nel black market è datato 06 novembre 2022 (la società ne viene a conoscenza due giorni più tardi), quando un utente comunica di essere in possesso dei dati (condividendone vari sample). In seguito, il database viene pubblicato nella sua interezza il 23 dicembre 2022.

Attraverso un’attenta ricerca nei web archives è stato rinvenuto un post che riteniamo d’interesse[3] risalente al 02 novembre 2022, nel quale un utente (che abbiamo ragione di credere sia lo stesso responsabile della pubblicazione avvenuta 4 giorni dopo) scrive:
“looking for people that know of any account registered before april 4 2019 to verify a breach”
L’ipotesi è che si tratti di un tentativo di reperire dati relativi ad utenti registrati prima dell’aprile 2019 al fine di verificare l’attendibilità del data leak poco dopo pubblicato.

Il 2 Gennaio 2023 il sito haveibeenpwned.com aggiunge Deezer sul suo motore di ricerca per consentire la verifica tramite e-mail dell’eventuale coinvolgimento da parte degli utenti.
Infografica
Si riporta infine un sunto della cronologia degli eventi rilevanti.

Riferimenti
↑1 | Si noti che all’interno della cartella final_split (dove si presume sia contenuta l’ istantanea del database trapelato) le 105 parti di file sono numerate in ordine crescente, partendo da 00004 fino a 00193: alcuni numeri progressivi sono infatti mancanti. |
---|---|
↑2 | Epoch & Unix Timestamp Conversion Tools. |
↑3 | Il post non è reperibile nel web “tradizionale” in quanto definitivamente cancellato. |