Vous avez besoin du Cloud Computing ? Commencez dès maintenant

Le mot-clé de combosquatting le plus courant est « assistance »

Akamai Wave Blue

écrit par

Stijn Tilborghs et Kamil Jarosz

March 29, 2023

Headshot of Stijn Tilborghs

écrit par

Stijn Tilborghs

Stijn Tilborghs est un ingénieur en électronique qui a décidé de se consacrer à la science des données en 2016. Sa participation à des compétitions de hackathons d'apprentissage automatique lui a offert ses premières rentrées d'argent dans ce domaine. Après avoir travaillé en tant que freelance pendant quelques années, il fait désormais partie de l'équipe de recherche sur les menaces d'Akamai et réfléchit à des solutions innovantes pour l'écosystème mondial et dynamique des menaces.

Headshot of Kamil Jarosz

écrit par

Kamil Jarosz

Kamil Jarosz is a mathematician–computer scientist hybrid who believes that every problem has an elegant solution. After working for more than five years on a computer vision–based quality assurance project, he recently joined the Akamai threat research team with a new mission: to make sure that everyone is safe on the internet.

Notre analyse des domaines malveillants a montré que le combosquatting représente la plus grande menace de cybersquatting.

Synthèse

  • Le cybersquatting (également appelé enregistrement abusif de noms de domaine ou détournement d'URL) est souvent utilisé dans le cadre de campagnes de phishing et de tentatives d'usurpation d'identité et d'installation de programmes malveillants.

  • Le terme « combosquatting » dépasse aujourd'hui « typosquatting » en nombre de domaines actifs et de clics, ce qui en fait la plus grande menace de cybersquatting à ce jour.

  • Nous avons analysé le trafic DNS mondial et les listes de domaines malveillants internes afin d'identifier les mots-clés de combosquatting les plus utilisés. 

  • Ainsi, nous avons compilé les 50 mots-clés de combosquatting les plus populaires.

Introduction

Tous les jours, des acteurs malveillants imitent des sites Web de marque. Ce fonctionnement serait difficile à reproduire dans la vie réelle ; par exemple, il pourrait être compliqué d'obtenir le bâtiment physique nécessaire. En revanche, en ligne, ces acteurs malveillants peuvent héberger des sites similaires bien conçus incluant des imitations de noms de domaine. 

Souvent, ces sites Web sont hébergés sur des noms de domaine proches de celui de la marque originale. C'est ce que nous appelons des domaines cybersquattés.

Notre analyse des domaines malveillants a montré que le combosquatting représente la plus grande menace de cybersquatting. Dans cette publication, nous vous expliquons comment nous détectons le combosquatting dans le trafic DNS, et énumérons les mots-clés de combosquatting les plus couramment utilisés par les pirates pour tromper les organisations et les individus. 

Qu'est-ce que le cybersquatting ?

Les domaines cybersquattés sont des noms de domaine enregistrés et utilisés par des acteurs malveillants pour abuser du fonds de commerce d'une marque ou d'un nom qu'ils ne possèdent pas. Le cybersquatting est souvent considéré comme un outil dans le cadre de campagnes de tentatives d'installation de ransomwares (par exemple par publicité malveillante), de phishing ou d'usurpation d'identité. 

Variantes du cybersquatting

Il existe de nombreux types de cybersquatting dans le monde. Le tableau 1 illustre leurs différences, en utilisant la marque fictive safebank[.]com.  

Variante

Description

exemple safebank[.]com

Combosquatting

Ajout d'un mot-clé au domaine de la marque

safebank-security[.]com

Typosquatting

Ajout, suppression ou remplacement d'un caractère

safebqnk[.]com

Bitsquatting

Inversion de bit ASCII aléatoire

sagebank[.]com

IDN homographique

Utilisation de caractères d'apparence similaire

sǎfebank[.]com

Squatting de TLD

Remplacement du domaine de premier niveau (TLD)

safebank[.]co

Soundsquatting

Utilisation d'homophones

savebank[.]com

Dotsquatting

Insertion d'un ou plusieurs points

sa.febank[.]com

Tableau 1 : Les variantes du cybersquatting

Parmi ces variantes, nous accordons une mention spéciale au dotsquatting. En effet, il n'est apparu nulle part au cours de notre recherche sur la littérature existante. Pourtant, nous en avons trouvé suffisamment dans nos données pour justifier sa présence dans ce tableau. Le dotsquatting est le nom descriptif donné par notre équipe à cette pratique, que nous avons donc repris ici.

Interactions des variantes

Il existe un certain chevauchement entre ces différents types de cybersquatting, en particulier entre le bitsquatting et le typosquatting. L'exemple de bitsquatting ci-dessus en témoigne : comme le « g » est à côté du « f » sur un clavier AZERTY, ce remplacement pourrait aussi être considéré comme du typosquatting.

En outre, ces types ne sont pas non plus mutuellement exclusifs. Plusieurs types de cybersquatting peuvent également être combinés dans un seul nom de domaine, tel que safebank-security[.]co, qui peut être considéré à la fois comme du combosquatting et du squatting de TLD.

Enfin, tous les types de cybersquatting existants n'apparaissent pas dans le tableau 1. Et il existera probablement encore plus de variantes à l'avenir, puisque ces vecteurs d'attaque continuent d'évoluer.

Monétisation du cybersquatting

Le cybersquatting a des conséquences et entraîne des dommages financiers depuis de nombreuses années, mais reste une menace énorme pour les entreprises comme pour les individus.  

Ce terme est également couramment utilisé dans des contextes plus généraux. Ainsi, les pratiques courantes dans ce domaine incluent l'entreposage de noms de domaine et le front-running de noms de domaine. Par exemple,une personne achète coke[.]net (un squat de TLD) pour tenter de le revendre à la société Coca-Cola en faisant au passage un bénéfice considérable. Un autre type de monétisation couramment utilisé est le marketing d'affiliation permettant le vol de ventes. Cela consiste par exemple à enregistrer payypal[.]com pour ensuite rediriger les visiteurs vers le site Web authentique par le biais d'un code de référence. Les tentatives sont nombreuses et souvent couronnées de succès. Les réussites passées ont conduit à l'adoption de diverses lois et réglementations, dont la loi américaine de protection des consommateurs contre le cybersquatting, appelée U.S. Anti-Cybersquatting Consumer Protection Act (ACPA).

Exemples de cybersquatting réussi 

En 2023, Reddit a été victime d'une campagne de phishing très ciblée. Cette attaque a impliqué un site Web qui a cloné le comportement de sa passerelle intranet, hébergé sur un domaine cybersquatté, ce dernier étant mentionné implicitement dans la réponse aux incidents de sécurité de Reddit. Les acteurs malveillants ont ainsi eu accès à des informations limitées sur les employés et les annonceurs.

Facebook a aussi été victime en 2011 d'une attaque basée sur plus de 100 noms de domaine semblables créés à partir de simples fautes d'orthographe. Par la suite, Facebook a reçu une indemnité de près de 2,8 millions de dollars.

Les internautes peuvent également être directement ciblés. Ainsi, en octobre 2022, Bleepingcomputer a signalé une vaste campagne de typosquatting visant à amener la cible à installer des applications infectées par des programmes malveillants. Les victimes ont été infectées par des keyloggers et des programmes malveillants qui ont volé leurs informations d'identification pour leurs comptes bancaires et leurs portefeuilles de crypto-monnaies.

La popularité du combosquatting 

Dans notre analyse de 2022, le combosquatting était le type de cybersquatting le plus souvent observé en termes de noms de domaine uniques. Autrement dit, les acteurs malveillants utilisent le combosquatting comme vecteur d'attaque beaucoup plus souvent que les autres types de cybersquatting.

Le combosquatting a également semblé générer le plus de requêtes DNS, chacune de ces requêtes représentant une victime potentielle visitant un domaine malveillant.

Selon notre analyse, ces deux points de données font du combosquatting la plus grande menace de cybersquatting.

Le typosquatting vole la vedette

Cette analyse de notre équipe est en accord avec les conclusions d'une étude à grande échelle de 2017 spécifiquement axée sur le combosquatting : « Nous constatons que les domaines de combosquatting sont 100 fois plus répandus que les domaines de typosquatting. »

Malgré tout, il nous semble que le typosquatting, et non le combosquatting, est la variante qui attire le plus l'attention dans les recherches, les blogs et les magazines. En tant que chercheurs, nous n'avons pas pu trouver de données pour justifier cette attention portée au typosquatting. Les données que nous avons nous donnent à penser que les acteurs malveillants sont plus que satisfaits que le typosquatting reste sous le feu des projecteurs, afin que le combosquatting puisse passer inaperçu. 

Mots-clés du combosquatting

N'oubliez pas : le combosquatting est une variante du cybersquatting consistant à ajouter un mot-clé au domaine d'une marque. Voici quelques autres exemples pour safebank[.]com :

  • safebank-membres[.]com

  • monsafebank[.]com

  • connexion-safebank[.]com

Mais comment définir un mot-clé ? En jetant un coup d'œil aux exemples ci-dessus, nous pouvons voir des mots-clés tels que « membres », « mon » ou encore « connexion » ajoutés à la marque « safebank » avec un tiret (connexion-safebank) ou simplement concaténés (monsafebank) directement d'un côté ou de l'autre. 

Les mots-clés sont destinés à invoquer certains ressentis, comme le montre le tableau 2.

Keywords

Ressentis

Vérification, compte, connexion

Sécurité, autorité

Maintenant, alerte

Urgence

Gratuit, promotion

Peur de manquer une occasion

Tableau 2 : Exemples de mots-clés et des ressentis qu'ils invoquent

Les noms de marque ne constituent pas une preuve de légitimité

La nom de la marque (safebank) donne l'impression que le lien est légitime. Mais bien sûr, le fait qu'un lien contienne un nom de marque ne suffit pas à le rendre sûr. Rien n'empêche qui que ce soit d'enregistrer des noms de domaine contenant des marques déposées. Il est clair que l'objectif des pirates ici est de déclencher une réponse émotionnelle rapide chez l'utilisateur, plutôt qu'une réponse rationnelle. La combinaison de la marque avec un mot-clé semble être une manière efficace d'y parvenir.

Maintenant, comment exploiter ces connaissances pour protéger les internautes ?

En tant qu'équipe de recherche sur la cybersécurité, nous avons l'arme la plus puissante : les données ! Ainsi, nous avons accès à une vaste liste de domaines que nous avons signalés comme malveillants. C'est cette liste que nous partageons avec nos clients, afin de leur permettre de protéger les utilisateurs finaux sur Internet. De plus, nous pouvons également utiliser les données de trafic DNS pour voir les tendances des mots-clés dans les domaines récemment observés, qui regroupent à la fois des domaines inoffensifs et malveillants. 

Découverte de mots-clés basée sur les données

Il est important de noter que le jeu de données que nous avons utilisé pour cette analyse contient uniquement des domaines de phishing malveillants. Cela nous a permis de nous concentrer exclusivement sur les mots-clés que les attaquants utilisent activement aujourd'hui. Chaque entrée a été signalée comme phishing en suivant de multiples processus internes afin d'en garantir l'exactitude. Dans cette section, nous allons vous expliquer grossièrement comment nous avons compilé cette liste de mots-clés courants.

Début de l'analyse

Souvenez-vous que les mots-clés peuvent être ajoutés à une marque avec un tiret ou directement par concaténation.

Les premiers de ces mots-clés sont faciles à trouver. Il suffit de diviser un nom de domaine en fonction des tirets, qui sont des délimiteurs naturels. Par exemple : supposons que nous avons un domaine amazon-e[.]com. Le tiret révèle immédiatement les mots-clés : le nom de la marque amazon et le mot-clé e. Rien de plus simple. 

Les mots-clés directement concaténés représentent en revanche un défi beaucoup plus grand. En effet, ils nécessitent une variété de points de connaissance tels que la langue, les marques localisées, et même le comportement de navigation. Les chevauchements de mots-clés sont courants. 

Jetons un coup d'œil à amazone[.]com. Ici, nous n'avons aucune idée si la marque est Ama (fabricant italien de baskets en cuir), Amaz (marque grecque de vêtements pour femmes), ou Amazon (société américaine de technologie). Ainsi, les mots-clés possibles pour ce domaine sont les suivants : zone, one, e, qui peuvent tous être valides

Filtrage des domaines

Nous simplifions ici considérablement cette tâche. Ainsi, nous limitons l'analyse au premier type de mots-clés faciles à extraire : les noms de domaine contenant des tirets. La distribution sur ce sous-ensemble devrait suivre la distribution sur l'ensemble du jeu de données, en raison du volume de données.  

En un mot, le processus initial comprenait quatre étapes principales :

  1. Prendre les noms de domaine de notre liste de phishing comme entrées 

  2. Supprimer les TLD

  3. Filtrer la liste restante pour obtenir les noms de marque courants 

  4. Utiliser les tirets comme séparateurs

Une fois ces quatre étapes terminées, nous agrégeons tous les mots trouvés dans une grande liste. Nous avons ensuite affiné cette liste (en supprimant les noms de marque), pour ne laisser que les mots-clés. Enfin, nous avons compilé tous les mots-clés et procédé à un comptage.

Les 50 mots-clés de combosquatting les plus populaires

Grâce au processus de filtrage ci-dessus, nous avons pu déterminer les mots-clés de combosquatting les plus populaires ciblant les grandes marques. Nous savons qu'ils sont représentatifs, car les entrées elles-mêmes ont toutes été confirmées comme étant des domaines de phishing par le passé. 

Le tableau 3 répertorie les 10 principaux mots-clés de combosquatting extraits par le biais de ce processus, par rang de popularité. Vous pouvez trouver la liste complète des 50 principaux mots-clés dans notre référentiel GitHub.

Classement

Mot-clé

1

assistance

2

com

3

connexion

4

aide

5

sécurisé

6

www

7

compte

8

application

9

vérification

10

service

Tableau 3 : Les 10 principaux mots-clés de combosquatting par ordre de popularité

Cela nous donne une vision très claire des mots-clés que les attaquants exploitent pour piéger les victimes. Comme vous pouvez le voir, le mot-clé de combosquatting le plus couramment utilisé est « assistance. » Cela est probablement dû au fait que les pages d'assistance légitimes sont souvent des portails au sein d'un site, avec une URL du type support[.]nom-société[.]com. 

Surprises

Parmi les surprises figure « com ». C'est un mot-clé que nous ne pensions pas voir apparaître avec un rang si élevé, et que nous n'aurions pas détecté sans notre approche fondée sur les données et notre vaste ensemble de données. En voici quelques exemples : accountpaypal-com[.]info et com-apple[.]co.

Autre surprise : « jp », le TLD pour le Japon. En voici quelques exemples : apple1-jp[.]com et jp-rakuten[.]com. Quelques autres mots-clés sur cette liste sont aussi des codes TLD : « US », « UK » et « FR ». Il est possible qu'ils représentent les pays les plus ciblés. 

Conclusion

Les applications potentielles du cybersquatting sont innombrables et les victimes ciblées vont des internautes individuels aux grandes entreprises. Il est donc difficile de quantifier les dommages totaux causés par le cybersquatting. En outre, nous estimons que les campagnes de cybersquatting sont fortement sous-signalées ; beaucoup d'entre elles ne sont connues que lorsqu'une grande entité est touchée.

Ces incidents à grande échelle et leurs équivalents plus modestes sont lucratifs, c'est pourquoi il est essentiel que nous exécutions des analyses comme celle-ci pour mieux comprendre le comportement des pirates. 

Nous continuerons de surveiller les menaces comme celles-ci pour approfondir encore leur analyse et partager les résultats publiquement. Pour vous tenir au courant des dernières recherches en matière de sécurité, suivez-nous sur Twitter.



Akamai Wave Blue

écrit par

Stijn Tilborghs et Kamil Jarosz

March 29, 2023

Headshot of Stijn Tilborghs

écrit par

Stijn Tilborghs

Stijn Tilborghs est un ingénieur en électronique qui a décidé de se consacrer à la science des données en 2016. Sa participation à des compétitions de hackathons d'apprentissage automatique lui a offert ses premières rentrées d'argent dans ce domaine. Après avoir travaillé en tant que freelance pendant quelques années, il fait désormais partie de l'équipe de recherche sur les menaces d'Akamai et réfléchit à des solutions innovantes pour l'écosystème mondial et dynamique des menaces.

Headshot of Kamil Jarosz

écrit par

Kamil Jarosz

Kamil Jarosz is a mathematician–computer scientist hybrid who believes that every problem has an elegant solution. After working for more than five years on a computer vision–based quality assurance project, he recently joined the Akamai threat research team with a new mission: to make sure that everyone is safe on the internet.