Signalement de 13 millions de domaines malveillants en 1 mois avec les domaines récemment observés
Par Stijn Tilborghs et Gregorio Ferreira
Synthèse
Les chercheurs d'Akamai ont signalé près de 79 millions de domaines malveillants au cours du premier semestre 2022, sur la base d'un jeu de données de domaines récemment observés. Cela équivaut à environ 13 millions de domaines malveillants par mois, et représente 20,1 % de tous les NOD résolus avec succès.
Nous avons comparé une approche de détection basée sur les NOD avec un autre agrégateur d'informations sur les menaces bien connu en termes de couverture et de temps moyen de détection et avons observé une excellente valeur complémentaire.
La détection des menaces basée sur NOD nous permet d'analyser la « longue traîne » des requêtes DNS (Domain Name System, système de noms de domaine), et de signaler de nouvelles menaces malveillantes très tôt dans le cycle de vie d'une menace.
Introduction
Les instances CacheServe d'Akamai traitent actuellement plus de 80 millions de requêtes DNS par seconde, soit environ sept mille milliards de requêtes par jour, provenant du monde entier. Un sous-ensemble anonymisé de ces données est envoyé à notre équipe, composée de chercheurs travaillant dur pour sécuriser les activités en ligne.
Nous faisons partie d'Akamai Security Research. Nous produisons des informations DNS et IP pour les FAI (fournisseurs d'accès à Internet) et les entreprises, afin que les utilisateurs finaux comme vous et moi puissent naviguer sur le Web de manière sécurisée et protégée.
Comme vous le savez certainement, les destinations des liens Web ne sont pas toujours sûres. Si nous identifions une destination malveillante, nos systèmes peuvent intervenir pour que vous ne soyez pas victime de ransomware, de programmes malveillants, d'hameçonnage et de nombreuses autres menaces.
Dans cet article, vous découvrirez l'un de nos atouts les plus puissants : le jeu de données de domaines récemment observés (NOD) et la façon dont nous l'utilisons pour signaler les nouveaux noms de domaine malveillants avec un temps moyen de détection très court (MTTD, mean time to detect).
Nous présenterons le concept de NOD et vous montrerons comment il permet à notre équipe de protéger les clients et utilisateurs finaux. Dans une future publication, nous détaillerons davantage le processus sur lequel est basé cette recherche, du point de vue de l'apprentissage machine.
Domaines récemment observés
Certains de nos clients CacheServe (généralement des FAI) nous fournissent des champs de requête DNS anonymisés, comme le FQDN (nom de domaine complet) demandé et l'adresse IP résolue. À partir de ces données, nous extrayons les noms de domaine et enregistrons la dernière fois où chaque nom de domaine a été observé. Chaque fois qu'un nom de domaine est interrogé pour la première fois au cours des 60 derniers jours, nous le considérons comme un NOD :un domaine récemment observé.
Le jeu de données NOD nous permet d'observer plus en détail ce qui est communément appelé la « longue traîne » ; dans ce cas, celle des requêtes DNS. Ce jeu de données vous permet de trouver des noms de domaine, des typos et des domaines récemment enregistrés qui ne sont que très rarement interrogés à l'échelle mondiale.
D'autres organisations connues surveillant les NOD ont indiqué se baser sur une période de 30 minutes à 72 heures. Loin de la période de 60 jours que nous utilisons. Cette longue période nous permet d'analyser uniquement les noms de domaine les plus à jour et les plus rarement interrogés. Dans ce jeu de données, nos chercheurs découvrent de grandes quantités de nouvelles cybermenaces DNS et de menaces à venir.
De plus, nous effectuons également un suivi des requêtes DNS qui n'ont jamais été résolues avec succès (NXDOMAIN). Nous réalisons ce suivi, car la plupart des domaines auxquels un logiciel malveillant tente de se connecter ne sont même pas enregistrés. La taille de notre jeu de données augmente donc d'environ un ordre de grandeur, mais cela permet à nos chercheurs en sécurité d'analyser une image complète et non un échantillon biaisé.
Voici en résumé notre jeu de données NOD. Il nous offre de nombreuses options d'analyse.
Activité malveillante dans les données NOD
La figure 1 montre un échantillon aléatoire à partir du 3 mars 2022 et donne une idée de ce à quoi ressemble réellement le jeu de données NOD
aa65ef[.]ch
i3oq6565ybln1l14[.]com
1z4e1feu8flth[.]com
fkyjtgqnodzv0n0[.]com
xmyc[.]ren
bx76-lzlirxpp6[.]com
vcd7alw-x34ujurr7aeciih9l8[.]com
yporqueyo[.]com
avdl2-li2tmw86[.]com
vnfwjetwwqqddnundjgk[.]jp
lynnesilkmandesig[.]com
aa73ve[.]ch
Fig. 1 : Échantillon aléatoire du jeu de données NOD
Après avoir observé la figure 1, vous ne serez pas surpris de constater que les NOD ont une forte probabilité d'être malveillants.
Lors d'une journée type, notre équipe observe environ 12 millions de nouveaux NOD au total, dont un peu plus de 2 millions résolus avec succès. Au cours des 6 premiers mois de l'année 2022, près de 79 millions de noms de domaine ont été signalés comme malveillants grâce à la détection des menaces basée sur les NOD. Le jeu de données NOD est donc un élément clé de nos mécanismes de détection.
De nombreux noms dans le jeu de données NOD ressemblent à des noms que vous n'auriez jamais saisis dans une fenêtre de navigateur. Ils ne sont pas lisibles par les humains, ils semblent générés par ordinateur. Pourquoi en observons-nous autant ?
Les acteurs malveillants enregistrent souvent des milliers de noms de domaine en masse. Ainsi, si un ou plusieurs de leurs domaines sont signalés et bloqués (par notre équipe par exemple), ils peuvent simplement passer à l'un des autres domaines dont ils sont propriétaires. Généralement, ces noms de domaine sont créés par programmation à l'aide d'un algorithme de génération de domaine (DGA, domain generation algorithm). Ce processus automatisé explique en partie pourquoi ces NOD sont dangereux. Ils constituent une méthode d'attaque des entreprises persistante.
Il est fréquent que des chiffres soient insérés dans les noms. Il y a ainsi peu de chances que les domaines générés aient déjà été enregistrés.
Les menaces courantes utilisant la technique ci-dessus incluent les programmes malveillants, les attaques de ransomware, les mineurs de cryptomonnaie, les typosquattages (souvent utilisé pour l'hameçonnage), les botnets et les APT. Plus vite nous détectons ces types de modèles et de noms générés par ordinateur, plus nous pourrons neutraliser efficacement les menaces avant qu'elles ne causent des dommages.
Détection d'activité malveillante dans les données NOD
Voici une petite sélection de méthodes de détection basées sur les NOD dans notre équipe.
Base de données DGA connue
Examinons de plus près 2 noms de domaine dans les exemples précédents : aa65ef[.]ch et aa73ve[.]ch. Ils ont tous les deux la même longueur, le même domaine de premier niveau (TLD, top-level domain) et le même emplacement des caractères alphabétiques et numériques, ce qui indique qu'ils ont été très probablement créés par le même DGA.
Lorsque le fonctionnement interne d'un DGA via l'ingénierie inverse est connu, il est facile de générer des noms attendus. C'est exactement le principe de l'un de nos projets internes : nous avons créé une base de données avec des noms prédits pour toutes les familles DGA connues pour les 30 ans à venir. Cela n'a été possible que par le partage des connaissances publiques dans la communauté de la cybersécurité. Merci, chers collègues, de partager vos connaissances !
Chaque fois que nous détectons un nouveau NOD, nous cherchons une correspondance avec cette base de données. Si une correspondance existe, nous considérons le NOD comme malveillant. Environ 0,1 % des NOD résolus avec succès sont actuellement signalés comme malveillants par cette méthode.
Cela signifie que les informations recueillies auprès de la communauté de la cybersécurité ont un impact important et protègent les utilisateurs finaux. Mais cela signifie également que cette méthode ne détecte qu'une petite fraction de l'activité malveillante, et nous avons besoin de plus de mécanismes de détection.
Analyse heuristique
Nos chercheurs travaillent avec les données des NOD depuis de nombreuses années. Grâce aux analyses et recherches manuelles menées au cours des 12 dernières années, nous avons créé plus de 190 règles de détection spécifiques aux NOD.
Ces règles heuristiques sont actuellement responsables de la grande majorité des détections et sont basées sur des entrées comme le nom de domaine lui-même, son TLD, l'IP résolue, les numéros de système autonomes (ASN, autonomous system numbers), etc.
Voici un exemple de cette règle :
Signaler tous les NOD avec :
Un score de risque ASN de plus de 0,50
Un score de risque TLD supérieur à 0,75
Des adresses IP résolues dans la plage 127.0.0.0/8
Un nom de domaine enregistré commençant par un chiffre
Comment savoir si une règle ne génère pas de faux positifs ? L'expérience de l'équipe joue ici un grand rôle. Au cours des dernières années, les règles ont certainement créé un nombre important de faux positifs. Nous avons mis en place un mécanisme de rapport pour nos clients, afin que toutes les erreurs puissent être analysées et traitées rapidement.
Au premier semestre 2022, sur les 79 millions de domaines signalés résultant de l'analyse heuristique, nous avons ensuite repéré 329 faux positifs. Cela équivaut à un taux de fausses détections de 0,00042 %.
Notre équipe de spécialistes des données travaille actuellement sur une approche basée sur l'apprentissage automatique (ML, machine learning), afin d'étendre l'analyse heuristique et d'augmenter la couverture. Nous détaillerons cette approche dans un prochain billet de blog.
Détection des tentatives d'hameçonnage
Pour chaque nouveau NOD observé, nous vérifions la similarité avec une liste de noms de marque connus et de sites Web populaires. Si nous détectons un nouveau NOD très similaire, ce peut être une raison suffisante pour le signaler comme malveillant.
Dans les cas de similarité plus légère (mais encore élevée), nous fournissons d'autres données pour aider à prendre une décision. Par exemple : Si, après la résolution, le nom de domaine dirige vers un ASN avec un score de risque élevé,la probabilité qu'il s'agisse d'une attaque d'hameçonnage augmente.
Détection rapide des menaces
Le gros avantage d'un NOD est son MTTD très court.
Les données NOD nous permettent de classer un nouveau domaine très tôt dans le cycle de vie d'une menace. Une requête DNS unique vers un domaine malveillant nouvellement créé est nécessaire pour déclencher nos mécanismes de détection.
Examinons quelques exemples :
Nous surveillons une tentative d'hameçonnage dans un pays très touché par les pirates. Les acteurs malveillants ciblent safebank[.]abc et mettent en place un faux site Web sur savebank[.]abc.
Des e-mails sont envoyés pour inciter les utilisateurs à visiter ce faux site Web. L'un de ces e-mails est envoyé à John, qui vit au Royaume-Uni et qui est abonné à un FAI utilisant CacheServe. Le FAI partage également les métadonnées CacheServe avec notre équipe Akamai, et John a opté pour le package de sécurité amélioré du FAI fourni par Akamai, comme tous les abonnés du FAI.
John clique sur le lien menant vers le site Web d'hameçonnage. Comme le site Web est complètement nouveau et qu'il n'a pas été signalé comme malveillant, John pourra malheureusement le visiter.
Cependant, en coulisses, notre équipe reçoit une nouvelle entrée dans le jeu de données NOD pour savebank[.]abc. Notre détection d'hameçonnage l'identifie immédiatement comme une orthographe erronée du domaine safebank[.]abc.
Le domaine est marqué comme malveillant. Il est transmis au FAI. À partir de là, tous les abonnés du FAI sont protégés contre cette attaque par hameçonnage. Même s'ils cliquent sur le lien d'hameçonnage, ils ne pourront pas visiter le faux site Web.
John a été la première victime du site Web d'hameçonnage. Mais il est probablement aussi la dernière, en ce qui concerne les personnes protégées par notre équipe.
Tous nos systèmes et règles de détection basés sur les NOD sont entièrement automatisés. Cela signifie que lorsqu'un nouveau NOD est identifié, le temps nécessaire pour que nous le classifiions comme malveillant est décompté en minutes, et non en heures ou en jours. Aucune intervention humaine n'est nécessaire.
Notre système de détection des menaces basé sur les NOD a donc une longueur d'avance par rapport à de nombreux autres mécanismes de détection des menaces. Il permet à notre équipe d'atténuer rapidement les nouvelles menaces basées sur DNS.
Pour résumer :
L'événement déclenchant la détection des menaces est situé très tôt dans le cycle de vie des menaces.
Les systèmes de détection eux-mêmes sont très rapides, car ils sont entièrement automatisés.
Quel est notre niveau d'efficacité ?
Pour comparer, examinons les NOD résolus avec succès, car il est peu probable de découvrir des noms de domaine non résolus dans des jeux de données externes. Ainsi, tous les numéros mentionnés ci-dessous sont uniquement pour le rcode 0. Nous nous limitons à une période allant du 1er janvier 2022 jusqu'à fin juin 2022.
Durant cette période, les systèmes de détection de notre équipe ont signalé 20,1 % de NOD malveillants. Cela équivaut à près de 79 millions de noms de domaine malveillants uniques au cours de cette période de 6 mois, basés uniquement sur le rcode 0.
Nous avons décidé d'effectuer une évaluation en utilisant comme référence un agrégateur d'informations sur les menaces bien connu. Nous désignerons cette référence comme « l'agrégateur ».
Nous avons d'une part analysé tous les NOD signalés comme malveillants par le projet d'analyse heuristique décrit plus tôt.
D'autre part, nous avons observé tous les noms de domaine qui avaient été recherchés au moins une fois dans la base de données mentionnée ci-dessus.
Nous avons constaté que 91,4 % des NOD que nous avons signalés comme malveillants n'étaient pas présents.
Nous avons également constaté que, d'après les noms que nous avons pu trouver, plus de 99,9 % avaient une « réputation » de 0, ce qui signifie qu'ils n'avaient pas encore été signalés comme inoffensifs ou malveillants (ils avaient seulement été recherchés par quelqu'un).
En résumé, pour tous les noms de domaine résolus avec succès signalés par nos chercheurs grâce aux règles heuristiques, nous n'avons pu obtenir un avis de l'agrégateur connu que pour environ 1 sur 11 000 noms de domaine.
Avons-nous fait mieux ou moins bien ? C'est une question à laquelle nous ne pouvons pas répondre ici.
Ce que nous pouvons conclure à partir de ces chiffres, c'est que le jeu de données NOD apporte une grande valeur complémentaire, puisqu'il n'y a qu'un très petit chevauchement entre son résultat et les autres sources d'informations importantes sur les menaces.
Quel est notre niveau de rapidité ?
Analysons à présent le temps de détection.
Prenons la même configuration de données que dans l'exemple ci-dessus, et analysons le petit chevauchement que nous avons trouvé, représentant les cas où l'agrégateur et notre équipe ont signalé un nom de domaine comme malveillant. Notez que nous analysons ici qu'un seul de nos projets de détection, c'est-à-dire l'analyse heuristique.
La figure 2 répond à la question suivante : Lorsque les deux systèmes signalent un nom de domaine comme malveillant, lequel des deux est le plus rapide et quelle est la différence de temps ?
Nous avons constaté que, dans les cas où l'agrégateur et notre équipe ont signalé un nom de domaine malveillant, nous réagissons généralement 29,6 jours plus tôt que l'agrégateur (c'est-à-dire, un MTTD de près de 30 jours plus court).
La figure 2 détaille ce résultat.
L'axe Y représente le nombre de noms de domaine malveillants.
L'axe X représente la différence au niveau du nombre de jours entre notre signalement d'un nom de domaine malveillant et son signalement par l'autre système. Les barres sur le côté droit représentent les cas où notre système de détection a été plus rapide. Celles de gauche représentent les cas où l'agrégateur a été le plus rapide.
L'approche NOD montre vraiment un excellent MTTD ici, en raison de la position très précoce des déclencheurs de détection dans le cycle de vie d'une menace typique.
Toutefois, il est également clair qu'il existe de nombreux cas où l'approche des NOD est plus lente que l'autre agrégateur. Cela démontre la nécessité d'une approche multidimensionnelle, afin de tirer le meilleur parti des deux systèmes.
Suivant notre analyse de la figure 2, nous concluons, encore une fois, que la meilleure solution consiste à utiliser à la fois l'approche NOD et l'agrégateur.
Une observation récente des NOD
L'analyse des données NOD peut nous fournir une vision macro unique sur les activités malveillantes. Par exemple, la figure 3 montre le nombre de noms de domaine malveillants que nous avons signalés par TLD au fil du temps.
Le comportement du TLD russe .ru est particulièrement intéressant. Sa base de référence est d'environ 10 000 nouveaux domaines malveillants uniques par jour. Deux semaines avant l'invasion de l'Ukraine par la Russie, nous avons commencé à observer une augmentation constante des activités malveillantes, jusqu'à atteindre près de 40 000 NOD malveillants par jour. Cette activité a ensuite un peu ralenti avant de générer un pic massif de plus de 250 000 noms de domaine .ru malveillants uniques par jour dans la seconde moitié du mois de mars.
Le fait d'identifier ces domaines pour nos clients leur a permis de protéger leurs abonnés de ces menaces.
Conclusion
La sécurité doit être multidimensionnelle, et plus nous en savons, plus nous pouvons assurer la sécurité du monde entier. La détection des menaces basée sur les NOD est rapide et très complémentaire à d'autres sources d'informations sur les menaces.
Notre équipe continuera de surveiller les NOD, d'apprendre et de partager ses connaissances avec la communauté de la sécurité dans ses prochaines publications.
Dans un prochain billet de blog, nous détaillerons la façon dont nous ajoutons des algorithmes basés sur l'apprentissage automatique au jeu de données NOD.
Pour ne rien manquer des travaux de nos équipes de recherche en sécurité, des informations sur les menaces ou autres, suivez-nous sur Twitter pour vous tenir informé de nos prochaines recherches.