13 milioni di domini dannosi contrassegnati in un mese tramite i domini osservati di recente (NOD)
di Stijn Tilborghs e Gregorio Ferreira
Analisi riassuntiva
Nella prima metà del 2022, i ricercatori Akamai sono riusciti a segnalare circa 79 milioni di domini identificati come dannosi utilizzando un dataset NOD. Questo equivale a circa 13 milioni di domini dannosi al mese cioè il 20,1% di tutti i NOD risolti con successo.
Abbiamo messo a confronto un approccio di rilevamento basato su NOD con quello di un altro aggregatore di intelligence sulle minacce molto noto, comparando i parametri relativi alla copertura e al tempo medio di rilevamento e abbiamo riscontrato uno straordinario valore complementare.
Il rilevamento delle minacce basato su NOD ci consente di esaminare la "lunga coda" delle query DNS e di segnalare nuove minacce nelle primissime fasi del loro ciclo di vita.
Introduzione
Le istanze CacheServe di Akamai gestiscono attualmente più di 80 milioni di query DNS al secondo, ovvero circa 7 trilioni di richieste al giorno, in tutto il mondo. Un sottoinsieme anonimizzato di questi dati arriva al nostro team di ricercatori che lavora intensamente per rendere la vita online più sicura.
Siamo parte del team Akamai Security Research. Forniamo servizi DNS e di intelligence IP a fornitori ISP e aziende affinché garantiscano agli utenti finali di navigare nel web in modo sicuro e protetto.
Come sicuramente saprete, le destinazioni dei link web non sono sempre sicure. Quando identifichiamo una destinazione malevola, i nostri sistemi sono in grado di intervenire e impedire che non diventiate vittime di ransomware, malware, phishing e altre minacce.
In questo articolo, scoprirete uno dei nostri asset più potenti: il dataset NOD (Newly Observed Domain) e in che modo lo utilizziamo per contrassegnare i nomi di nuovi domini dannosi in un tempo medio MTTD (Mean Time To Detect) molto breve.
Introdurremo il concetto dei NOD e vi illustreremo in che modo essi consentono al nostro team di proteggere clienti e utenti finali. In un prossimo post, descriveremo più in dettaglio il processo che si nasconde dietro questa ricerca, inquadrandolo dal punto di vista dell'apprendimento automatico.
NOD (Newly Observed Domain)
Alcuni nostri clienti CacheServe (in genere ISP) ci forniscono campi di query DNS anonimizzati, come il dominio FQDN richiesto e l'indirizzo IP risolto. Da questi dati, estraiamo i nomi dei domini e teniamo traccia dell'ultima volta che ognuno di questi viene osservato. Quando un nome di dominio viene interrogato per la prima volta negli ultimi 60 giorni, lo consideriamo un NOD: un dominio osservato di recente (Newly Observed Domain).
Il dataset NOD ci consente di puntare l'attenzione su quella che viene spesso definita "coda lunga", in questo caso la coda lunga delle query DNS. In questo dataset sono presenti anche nomi di dominio, errori ortografici e domini appena registrati che vengono interrogati solo raramente su scala globale.
Altre organizzazioni che eseguono il monitoraggio dei NOD hanno dichiarato di utilizzare un arco temporale che varia tra 30 e 72 ore. È un valore molto lontano dalla finestra di 60 giorni che utilizziamo noi. Utilizziamo una finestra così lunga per assicurarci di osservare esclusivamente i nomi di dominio interrogati più di recente e più raramente. Questo sottoinsieme è il punto in cui i nostri ricercatori hanno intercettato grandi quantità di nuove e imminenti minacce informatiche basate su DNS.
Inoltre, teniamo anche traccia delle query DNS che non sono mai state risolte (NXDOMAIN). Facciamo questo, perché la maggior parte dei domini a cui il malware tenta di connettersi non è nemmeno registrata. Questo comporta un aumento delle dimensioni dei dataset di circa un ordine di grandezza, ma consente ai nostri ricercatori di osservare un quadro completo anziché a un campione parziale.
Questo, in sintesi, è il nostro dataset NOD. E ci offre una vasta gamma di opzioni per l'analisi.
Attività dannosa nei dati NOD
Per avere un'idea di come appare effettivamente un dataset NOD, nella Figura 1 è mostrato un esempio casuale del 3 marzo 2022.
aa65ef[.]ch
i3oq6565ybln1l14[.]com
1z4e1feu8flth[.]com
fkyjtgqnodzv0n0[.]com
xmyc[.]ren
bx76-lzlirxpp6[.]com
vcd7alw-x34ujurr7aeciih9l8[.]com
yporqueyo[.]com
avdl2-li2tmw86[.]com
vnfwjetwwqqddnundjgk[.]jp
lynnesilkmandesig[.]com
aa73ve[.]ch
Figura 1: un campione casuale di dataset NOD
Dopo aver analizzato la Figura 1, capirete perché i NOD hanno un'altissima probabilità di essere dannosi.
In una giornata tipica, il nostro team osserva un totale di circa 12 milioni di nuovi NOD, di cui poco più di 2 milioni vengono risolti con successo. Nei primi sei mesi del 2022, sono stati contrassegnati come dannosi quasi 79 milioni di nomi di dominio grazie al rilevamento basato su NOD. Questi risultati rendono il dataset NOD un componente chiave dei nostri meccanismi di rilevamento.
Molti nomi presenti nel dataset NOD sembrano nomi che non scrivereste mai in una finestra del browser. Non sono leggibili dall'uomo; sembrano generati dal computer. Qual è il punto in cui ne osserviamo di più?
Gli autori degli attacchi spesso registrano migliaia di nomi di dominio in blocco. In questo modo, se uno o più domini vengono segnalati e bloccati (ad esempio, dal nostro team), i malintenzionati passano semplicemente a un altro dominio in loro possesso. Di solito, i nomi di dominio sono generati in modo programmatico utilizzando un algoritmo di generazione dei domini (DGA). Questo processo automatizzato è in parte ciò che rende i NOD pericolosi. È un modo persistente per sferrare un attacco a un'organizzazione.
Spesso accade che nei nomi vengano inserite delle cifre, per ridurre le probabilità che i domini generati siano già registrati.
Le minacce più comuni che utilizzano questa tecnica, includono attacchi malware, ransomware, crypto-mining, typosquatting (spesso utilizzato per il phishing), botnet e APT. Più veloci siamo a rilevare questo tipo di modelli e nomi generati da computer, più minacce riusciamo a neutralizzare prima che provochino danni.
Rilevamento di attività dannose nei dati NOD
Di seguito, vi forniamo una breve selezione dei metodi di rilevamento basati su NOD utilizzati dal nostro team.
Database DGA noto
Esaminiamo da vicino due degli esempi di nomi di dominio indicati in alto: aa65ef[.]ch e aa73ve[.]ch. Hanno entrambi la stessa lunghezza, lo stesso dominio di primo livello (TLD) e la stessa posizione dei caratteri alfabetici e numerici, il che suggerisce siano probabilmente stati creati dallo stesso DGA.
Una volta compreso il funzionamento interno di un DGA attraverso il reverse engineering, è facile generare nomi che ci aspettiamo di vedere in futuro. È esattamente quello che stiamo facendo con uno dei nostri progetti interni: abbiamo creato un database con nomi prevedibili per tutte le famiglie DGA fino a 30 anni successivi. Questo è stato possibile solo grazie alle informazioni condivise tra la comunità della cybersicurezza. Ringraziamo i colleghi per aver condiviso con noi le loro conoscenze!
Ogni volta che rileviamo un nuovo NOD, ricerchiamo una corrispondenza nel database. Se viene rilevata, consideriamo il NOD dannoso. Grazie a questo metodo, circa lo 0,1% dei NOD risolti con successo sono attualmente segnalati come dannosi.
Ciò significa che le conoscenze raccolte dalla comunità della cybersicurezza stanno influendo attivamente sul settore, proteggendo gli utenti finali. Ma significa anche che questo metodo rileva solo una piccola parte dell'attività dannosa e che, in aggiunta a questo, abbiamo bisogno di più meccanismi di rilevamento.
Analisi euristica
I nostri ricercatori lavorano con i dati NOD da molti anni. Attraverso le analisi e le ricerche manuali condotte negli ultimi 12 anni, abbiamo creato più di 190 regole di rilevamento specifiche per il NOD.
Queste regole euristiche sono attualmente responsabili della maggior parte dei rilevamenti e si basano su input quali il nome di dominio stesso, il suo TLD, l'IP risolto, i numeri di sistema autonomi (ASN) e così via.
Un esempio di regola potrebbe essere:
Segnala tutti i NOD con:
Punteggio di rischio ASN superiore a 0,50
Punteggio di rischio TLD superiore a 0,75
Indirizzi IP risolti compresi nell'intervallo 127.0.0.0/8
Nome di dominio registrato che inizia con una cifra
Come facciamo a sapere che una regola non crea falsi positivi? In questo, l'esperienza del team è determinante. Nel corso degli anni, le regole hanno certamente causato un discreto numero di falsi positivi. Disponiamo di un meccanismo di segnalazione per i clienti che permette di analizzare e gestire rapidamente eventuali errori.
Dei 79 milioni di domini segnalati nella prima metà del 2022, risultanti dall'analisi euristica, 329 erano falsi positivi. Ciò equivale a un tasso dello 0,00042%.
Il nostro team di analisti sta attualmente studiando un approccio basato su ML per estendere l'euristica a nuove aree di analisi. Approfondiremo questo argomento in un prossimo post.
Rilevamento del phishing
Per ogni nuovo NOD che individuiamo, ne verifichiamo la somiglianza in base a un elenco di nomi di marchi noti e siti web popolari. Se riscontriamo un alto grado di somiglianza, potrebbe essere un motivo sufficiente per segnalare il NOD come dannoso.
Se il grado di somiglianza è più basso (ma comunque rilevante), consideriamo altri dati per decidere. Ad esempio: se, una volta risolto, il nome di dominio punta a un ASN con un punteggio ad alto rischio, la probabilità che si tratti di un attacco di phishing aumenta.
Rilevamento rapido delle minacce
Il grande vantaggio di un NOD è che ha un MTTD molto breve.
I dati NOD ci consentono di classificare un nuovo dominio nelle primissime fasi del ciclo di vita della minaccia. Ciò di cui abbiamo bisogno per attivare i meccanismi di rilevamento è una sola query DNS al dominio dannoso appena creato.
Consideriamo questo esempio:
Stiamo osservando un tentativo di phishing in fase di creazione nel "malvagio paese degli hacker". I malintenzionati stanno puntando a safebank[.]abc e hanno creato un sito web falso denominato savebank[.]abc.
Vengono inviate e-mail per invitare le persone a visitare il sito web falso. Una di queste e-mail raggiunge John, che vive nel Regno Unito e ha un abbonamento con un fornitore ISP che utilizza CacheServe. L'ISP condivide i metadati CacheServe con il nostro team Akamai e John ha scelto di aderire al pacchetto di sicurezza avanzato dell'ISP fornito da Akamai, come tutti gli altri abbonati dell'ISP.
John fa clic sul link del sito web di phishing. Poiché il sito è completamente nuovo e non è ancora stato segnalato come dannoso, purtroppo John vi potrà accedere.
Tuttavia, dietro le quinte, il nostro team riceve una nuova richiesta nel dataset NOD per savebank[.]abc. Il nostro sistema di rilevamento di phishing la identifica immediatamente come un errore di digitazione per safebank[.]abc.
Il dominio viene segnalato come malevolo. Questa attività viene comunicata in cascata all'ISP. Da questo punto in poi, tutti gli abbonati dell'ISP sono protetti dalla truffa di phishing. Anche se fanno clic sul link, non riescono ad accedere al sito web falso.
John è stato probabilmente il primo a cadere vittima del sito web di phishing. Ma forse anche l'ultimo; gli altri sono stati protetti dal nostro team.
Tutti i nostri sistemi e regole di rilevamento basati su NOD sono completamente automatizzati. Questo significa che una volta identificato un nuovo NOD, il tempo necessario per classificarlo come dannoso è misurabile in minuti, non in ore o giorni. Non è richiesto alcun intervento umano.
Questo fa sì che il nostro sistema di rilevamento basato su NOD abbia un vantaggio assoluto in termini di velocità, rispetto a molti altri meccanismi di rilevamento. Il sistema consente al nostro team di mitigare le nuove minacce basate su DNS, in modo estremamente rapido.
Per riassumere:
L'evento che attiva il rilevamento delle minacce si verifica nelle primissime fasi del ciclo di vita della minaccia.
I sistemi di rilevamento stessi sono molto veloci perché completamente automatizzati.
Quanto siamo efficaci?
Per effettuare un confronto, focalizziamoci sui NOD che sono stati risolti con successo, dato che è improbabile che nei dataset esterni si trovino nomi di dominio non risolti. Pertanto, tutti i numeri menzionati di seguito si riferiscono esclusivamente a rcode 0. Inoltre, limitiamo la tempistica dal 1 gennaio a fine giugno 2022.
In questo arco di tempo, i sistemi di rilevamento del nostro team hanno segnalato come dannosi il 20,1% dei NOD. La percentuale equivale a circa 79 milioni di nomi di dominio univoci in un periodo di 6 mesi, relativi al solo codice rcode 0.
Abbiamo deciso di eseguire una valutazione utilizzando come riferimento un aggregatore molto noto di intelligence sulle minacce, a cui faremo riferimento come “aggregatore”.
Da un lato, abbiamo considerato tutti i NOD contrassegnati come dannosi dal progetto di analisi euristica descritto in precedenza.
Dall'altro, abbiamo preso tutti i nomi di dominio che erano stati consultati almeno una volta nel database sopra menzionato.
Abbiamo scoperto che il 91,4% dei NOD classificati come dannosi non era presente.
Abbiamo anche constatato che tra i nomi che siamo riusciti a trovare, più del 99,9% aveva una “reputazione” pari a 0, il che significa che non erano ancora stati etichettati né benevoli né malevoli, ma erano semplicemente stati cercati da qualcuno.
Riassumendo, per tutti i nomi di dominio risolti con successo e contrassegnati dai ricercatori seguendo le regole euristiche, siamo riusciti a ottenere l'opinione del famoso aggregatore solo per 1 ogni 11.000 nomi di dominio, approssimativamente.
Abbiamo fatto meglio o peggio di loro? È una domanda alla quale ora non siamo in grado di rispondere.
La conclusione che possiamo trarre dai numeri forniti è che il dataset NOD offre un grande valore complementare, in quanto la sovrapposizione del suo output e quello di altri feed di intelligence sulle minacce è veramente ridotta.
Quanto siamo veloci?
Analizziamo ora i tempi di rilevamento.
Prendiamo la stessa configurazione dati di prima e focalizziamoci su questa lieve sovrapposizione riscontrata, riferita ai casi in cui un nome di dominio viene etichettato come dannoso sia dall'aggregatore che dal nostro team. Ricordate che stiamo ancora prendendo in esame uno solo dei nostri progetti di rilevamento, cioè l'analisi euristica.
La Figura 2 risponde alla seguente domanda: Quando entrambi i sistemi classificano un nome di dominio come dannoso, quale dei due lo fa più velocemente e qual è la differenza in termini di tempo?
Abbiamo scoperto che quando la segnalazione viene effettuala da entrambi i sistemi, noi lo facciamo con 29,6 giorni di anticipo ovvero con un MTTD più breve di circa 30 giorni.
Nella Figura 2 questi dati vengono ulteriormente scomposti.
L'asse y rappresenta il numero di nomi di dominio dannosi.
L'asse x rappresenta la differenza tra il numero di giorni che intercorre tra la segnalazione eseguita da noi e quella dell'altro sistema. Le barre sul lato destro rappresentano i casi in cui il nostro sistema di rilevamento è stato più veloce. Quelle sul lato sinistro, i casi in cui è stato più veloce l'aggregatore.
L'approccio NOD dimostra un MTTD davvero eccellente, come risultato delle attivazioni di rilevamento avvenute nelle primissime fasi del ciclo di vita tipico di una minaccia.
Tuttavia, appare anche chiaro che in molti casi l'approccio NOD è più lento rispetto all'altro aggregatore. Da ciò si evince che è necessario adottare un approccio multiforme per ottenere il meglio da entrambi i sistemi.
Dall'analisi della Figura 2, ribadiamo quindi che la soluzione migliore è utilizzare contestualmente sia l'approccio NOD che quello dell'aggregatore.
Una recente osservazione sui NOD
Un'altra caratteristica dei dati NOD è che la loro analisi può offrire una macroprospettiva unica dell'attività dannosa. Ad esempio, nella Figura 3 viene rappresentato il numero di nomi di dominio dannosi che nel tempo abbiamo contrassegnato per i TLD.
Il comportamento del TLD russo .ru è particolarmente interessante. Il suo valore di riferimento è all'incirca di 10.000 nuovi domini dannosi univoci al giorno. Due settimane prima dell'invasione dell'Ucraina da parte della Russia, abbiamo osservato un progressivo e costante aumento delle attività dannose, fino a circa 40.000 NOD malevoli al giorno. Questa attività è poi rallentata e immediatamente schizzata in alto, raggiungendo un picco di oltre 250.000 nomi di dominio .ru univoci dannosi al giorno, nella seconda metà di marzo.
La segnalazione di questi domini ha consentito ai nostri clienti di proteggere i propri utenti abbonati dalle potenziali minacce.
Conclusione
La sicurezza deve essere multiforme e più allarghiamo le nostre conoscenze, più possiamo rendere sicuro il mondo. Il rilevamento delle minacce basato su NOD è veloce e altamente complementare ad altri feed di intelligence.
Il nostro team continuerà a monitorare i NOD e ad acquisire nuove informazioni per poi condividerle con la vasta comunità della sicurezza nei post che pubblicheremo.
In un prossimo post, approfondiremo il tema degli algoritmi basati sull'apprendimento automatico e aggiunti al dataset NOD.
Per essere sempre informati sulle attività svolte dal team di ricerche sulla sicurezza, dal team di intelligence sulle minacce o qualsiasi nostro team, seguiteci su Twitter per avere tutte le informazioni sulle nostre prossime ricerche.