Newly Observed Domain を利用して 1 か月に 1,300 万の悪性ドメインにフラグ付け
Stijn Tilborns、Gregorio Ferreira
エグゼクティブサマリー
Akamai のリサーチャーは Newly Observed Domain データセットに基づいて、2022 年上半期に約 7,900 万のドメインに対して悪性としてフラグを付けました。この数値は、1 か月に約 1,300 万の悪性ドメインにフラグを付けることに相当し、解決に成功した NOD すべての 20.1% を占めます。
NOD ベースの検知アプローチと別の有名な脅威インテリジェンスアグリゲーターを、適用範囲および平均検知時間という点で比較したところ、優れた補完的価値を発見しました。
NOD ベースの脅威検知により、「ロングテール」の DNS クエリーを確認し、脅威のライフサイクルの早い段階で新しい悪性の脅威にフラグを付けることができます。
概要
Akamai CacheServe のインスタンスは現在、世界中から 1 秒あたり 8,000 万件以上の DNS クエリー、すなわち 1 日あたり約 7 兆件のリクエストを処理しています。 このデータのうち匿名化されたサブセットが私たちのチームに届き、リサーチャーたちがオンラインでの生活の安全性向上に懸命に取り組んでいます。
私たちは Akamai Security Research に所属しています。私たちは、ISP やエンタープライズ向けに DNS と IP のインテリジェンスを提供し、皆様や私たちのようなエンドユーザーが安全に保護された方法で Web を閲覧できるようにしています。
ご存知のように、Web リンクの宛先は必ずしも安全ではありません。当社では宛先が悪性だと特定した場合、システムが介入して、私たちがランサムウェア、マルウェア、フィッシング、その他多くの脅威の被害者とならないようにすることができます。
この記事では、当社の最も強力な資産の 1 つである Newly Observed Domain(NOD)データセットについて、また、このデータセットを使用して非常に短い平均検知時間(MTTD)で新しい悪性ドメインの名前にフラグを付けている方法について解説します。
NOD の概念を簡単に説明し、当社のチームがお客様とエンドユーザーを保護する方法をご紹介します。今後の投稿では、この調査の背後にあるプロセスの概要について、機械学習の視点から説明する予定です。
Newly Observed Domain
CacheServe の一部のお客様(一般的には ISP)は、要求された FQDN や解決済み IP アドレスなど、匿名化された DNS クエリーのフィールドを当社に提供しています。当社はこのデータからドメイン名を抽出し、各ドメイン名が最後に見つかった日時を追跡します。ドメイン名に対して過去 60 日間で初めてクエリーが実行された場合、当社はそれを NOD、すなわち新たに見つかったドメインと見なします。
NOD データセットを使用すると、「ロングテール」と称されることの多いものを注意深く調べることができます。このケースではロングテールの DNS クエリーです。NOD データセットは、新しく登録されたドメイン名、タイプミス、グローバルな規模でクエリーされることがほとんどないドメインに見つかります。
NOD を監視していることを当社が認識している他の組織は、30 分から 72 時間の期間で監視していると述べています。これは、当社の 60 日間とは大きく異なります。当社はこのような長期にわたって監視することで、新しくてめったにクエリーの対象とならないドメイン名のみを確実に調査するようにしています。当社のリサーチャーは、このサブセットから、DNS ベースの新たなサイバー脅威が大量に出現していることを発見しています。
さらに、当社は解決に成功したことのない DNS クエリー(NXDOMAIN)も追跡します。マルウェアが接続しようとするほとんどのドメインは登録すらされていないためです。これにより、データセットのサイズはおよそ 1 桁増加しますが、セキュリティリサーチャーは、偏ったサンプルではなく全体像を把握できます。
以上が、NOD データセットの簡単な説明です。NOD データセットは、分析のオプションを多数提供してくれているのです。
NOD データの悪性アクティビティ
NOD データセットが実際にどのようなものであるかを知るために、図 1 に、2022 年 3 月 3 日のランダムサンプルを示します。
aa65ef[.]ch
i3oq6565ybln1l14[.]com
1z4e1feu8flth[.]com
fkyjtgqnodzv0n0[.]com
xmyc[.]ren
bx76-lzlirxpp6[.]com
vcd7alw-x34ujurr7aeciih9l8[.]com
yporqueyo[.]com
avdl2-li2tmw86[.]com
vnfwjetwwqqddnundjgk[.]jp
lynnesilkmandesig[.]com
aa73ve[.]ch
図 1:NOD データセットのランダムサンプル
図 1 を見ると、NOD が悪性である可能性が非常に高いことに納得されるでしょう。
通常、当社のチームは 1 日に合計 1,200 万ほどの新しい NOD を見つけ、そのうち 200 万強が正常に解決しています。NOD ベースの脅威検知により、2022 年上半期に約 7,900 万のドメイン名に対して悪性としてフラグを付けました。したがって NOD データセットは、検知メカニズムの重要なコンポーネントとなっています。
NOD データセットの名前の多くは、ブラウザーのウィンドウに入力したことのないような名前です。人間が読むことができないので、コンピューターによって生成されたように見えます。これほど多く見つかっているのはなぜでしょうか?
攻撃者は多くの場合、何千ものドメイン名を一括登録します。この方法を取っていると、当社のチームなどが 1 つ以上のドメインにフラグを付けてブロックしている場合に、攻撃者は自分が所有する他のドメインのいずれかに簡単に切り替えることができます。通常、これらのドメイン名は、ドメイン生成アルゴリズム(DGA)を使用してプログラムで作成されます。この自動化されたプロセスこそが、NOD を危険にしている原因の一部であり、組織をしつこく攻撃する方法です。
多くの場合、数字が名前に挿入されていて、生成されたドメインが既に登録されている可能性が低下しています。
前述の手法を使用する一般的な脅威には、マルウェア、ランサムウェア攻撃、クリプトマイナー、タイポスクワッティング(フィッシングによく使用される)、ボットネット、APT などがあります。このようなパターンやコンピューター生成の名前をより適切かつ迅速に検知することで、被害を受ける前に無効化できる脅威の数が増加します。
NOD データで検知された悪性アクティビティ
ここでは、私たちのチームにおける NOD ベース検知方法のほんの一部をご紹介します。
既知の DGA データベース
前述の例のうち 2 つのドメイン名、aa65ef[.]ch および aa73ve[.]ch. を詳しく見てみましょう。これらは両方とも同じ長さであり、最上位ドメイン(TLD)であり、アルファベットと数字の位置が同じです。これは、同じ DGA によって作成された可能性が高いことを示しています。
リバースエンジニアリングによって DGA 内部の仕組みを把握すると、将来予想される名前を簡単に生成できます。これはまさに、当社の社内プロジェクトの 1 つが行ったことです。当社は、すべての既知の DGA ファミリーの 30 年後までの予測名で、データベースを作成しました。この作業は、サイバーセキュリティコミュニティーで公開されているナレッジ共有によってのみ可能になりました。ナレッジを共有してくれた皆様、同僚の皆様、ありがとうございました!
当社は、新しい NOD を検知すると必ず、このデータベースと一致するものがあるか探します。一致するものが存在する場合は、その NOD を悪性と見なします。正常に解決された NOD の約 0.1% が、現在この方法で悪性としてフラグ付けされています。
つまり、サイバーセキュリティコミュニティーから収集したナレッジが、ここで威力を発揮し、エンドユーザーを保護しているのです。しかし、この方法で検知しているのが悪性アクティビティのごく一部にすぎないことも意味しており、これ以外にも検知メカニズムを増やす必要があります。
ヒューリスティック分析
当社のリサーチャーたちは、長年にわたり、NOD データに取り組んできました。過去 12 年間に手作業による分析と調査を通じて、190 を超える NOD 固有の検知ルールを作成しました。
現在、これらのヒューリスティックルールが検知の大部分を担っており、ドメイン名自体、その TLD、解決済み IP、自律システム番号(ASN)などの入力に基づいています。
ルールの例を見てみましょう。
以下に該当する NOD すべてにフラグを付けます。
ASN リスクスコア 0.50 超
TLD リスクスコア 0.75 超
127.0.0.0/8 の範囲内にある解決済み IP アドレス
数字で始まる登録済みドメイン名
ルールでフォールス・ポジティブ(誤検知)の結果が作成されないことを確認する場合は、チームの経験が大きな役割を果たします。この数年間、このルールでは、かなりの数の誤検知が発生しているのは確かです。当社にはお客様向けのレポートメカニズムがあるため、あらゆるエラーを迅速に分析して対処できます。
2022 年上半期に、ヒューリスティック分析によって 7,900 万のドメインにフラグが付けられました。後にその中に 329 件の誤検知が見つかりました。誤検知率は 0.00042% です。
現在、当社のデータ・サイエンティスト・チームは、ヒューリスティックを拡張し、適用範囲をさらに拡大するために、ML ベースのアプローチに取り組んでいます。このアプローチについては、今後のブログ投稿で説明します。
フィッシング検知
新しい NOD が見つかるたびに、当社は既知のブランド名リストと人気のある Web サイトとの類似性を確認します。非常に類似性の高い新しい NOD が見つかった場合は、その NOD を悪性としてフラグ付けするのに十分な根拠とすることができます。
類似性が少し低くても、まだ高いと判断される場合は、他のデータを利用して判断します。例:解決後、ドメイン名が 高いリスクスコアを持つ ASNをポイントしている場合、それがフィッシング攻撃である可能性が高くなります。
迅速な脅威検知
NOD の大きなメリットは、MTTR が非常に短いことです。
NOD データを使用すると、脅威のライフサイクルの初期段階で新しいドメインを分類できます。検知メカニズムをトリガーするために必要なのは、新しく作成された悪性ドメインに対する単一の DNS クエリーだけです。
1 つの例を見てみましょう。
当社は、「邪悪なハッカーの国」で仕掛けられたフィッシング詐欺を監視しています。 攻撃者は safebank[.]abc をターゲットにしており、savebank[.]abc に偽の Web サイトを設定しています。
偽の Web サイトにアクセスさせるメールを送信します。このメールの 1 つが John に届きます。彼は、英国に居住しており、CacheServe を使用している ISP の加入者です。この ISP はまた、CacheServe メタデータを Akamai チームと共有しています。John は他の ISP の加入者と同様に、Akamai によって提供されている、ISP の強化されたセキュリティパッケージにオプトインしています。
John はフィッシング Web サイトへのリンクをクリックします。Web サイトは新しく、悪性のフラグが付けられていないため、John は運悪くアクセスできます。
しかし、舞台裏では、当社のチームが savebank[.]abc に関する NOD データセットの新しいエントリを受け取ります。当社のフィッシング検知機能は、safebank[.]abc のスペルミスであることを即座に識別します。
このドメインは悪性としてフラグが付けられます。これは ISP にカスケード接続されます。この時点以降、すべての ISP 加入者がこのフィッシング詐欺から保護されます。 フィッシングリンクをクリックしても、偽の Web サイトにアクセスすることはできません。
John はフィッシング Web サイトの最初の被害者かもしれません。しかし、当社のチームが保護している人々については、John はおそらく最後の被害者でもあるでしょう。
当社のすべての NOD ベース検知システムとルールは、完全に自動化されています。つまり、新しい NOD を特定した後、それを悪性として分類するのに必要な時間は、数時間や数日ではなく、数分です。人間による操作は不要です。
これにより、当社の NOD ベースの脅威検知は、他の多くの脅威検知メカニズムと比較して、スピードの点で優れています。したがって、当社のチームは新しい DNS ベースの脅威を迅速に緩和できます。
まとめ:
脅威検知をトリガーするイベントは、脅威ライフサイクルの非常に早い段階に位置します。
検知システム自体は完全に自動化されているため、非常に高速です。
当社の検知の効果は?
比較のために、解決に成功した NOD を詳しく調べてみましょう。外部データセット内にある未解決のドメイン名を発見している可能性はないため、以下で述べる数字はすべて rcode 0 のみに関するものです。また、期間は 2022 年 1 月 1 日から 2022 年 6 月末までに限定しています。
この期間内において、当社のチームの検知システムは、すべての NOD の 20.1% に対して悪性のフラグを付けました。この数値は、rcode 0 のみに基づくと、この 6 か月間で約 7,900 万の悪性ドメイン名に相当します。
当社は、脅威インテリジェンスの大規模で有名なアグリゲーターを基準にして評価を行うことを決定しました。基準にするアグリゲーターを「アグリゲーター」と呼ぶことにします。
当社は、前述のヒューリスティック分析プロジェクトによって悪性のフラグが付けられたすべての NOD を取得しました。
また、前述のデータベースで少なくとも 1 回検索されたドメイン名もすべて取得しました。
悪性のフラグが付けられた NOD の 91.4% は存在しないことが判明しました。
また、発見した名前から、99.9% 超の「レピュテーション」が 0 であることが判明しました。つまり、これらには良性、悪性どちらのタグもまだ付けられていませんでした(誰かが検索しただけにすぎません)。
まとめると、リサーチャーたちがヒューリスティックルールでフラグを付けた解決済みのドメイン名すべてに関しては、11,000 ドメイン名あたりおよそ 1 件について、既知のアグリゲーターの評価を得ることができました。
当社の脅威検知は、アグリゲーターよりも優れているのか、それとも劣っているのでしょうか?これは、ここでは答えられない質問です。
前述の数字から得られた結論は、出力と他の主要な脅威インテリジェンスフィードの重複は非常に少ないため、NOD データセットには多くの補完的な価値があるということです。
当社の脅威検知の速度は?
検知の所要時間を分析してみましょう。
前述と同じデータを設定して取得し、発見したごくわずかの重複を詳しく調べます。これは、アグリゲーターと当社のチームの両方がドメイン名に悪性のフラグを付けたケースを表します。ここでは、当社の検知プロジェクトの 1 つ、つまりヒューリスティック分析だけを取り上げます。
図 2 を見ると、両方のシステムがドメイン名に悪性のフラグを付けた場合、どちらが早くフラグを付け、その時間差はどれくらいか、という疑問の答えがわかります。
アグリゲーターと当社チームの両方がドメイン名に悪性のフラグを付ける場合、一般的に当社の方がアグリゲーターよりも 29.6 日早く実行しています(MTTR は約 30 日短い)。
図 2 は、さらに詳細な数値を示しています。
y 軸は、悪性ドメイン名の数を表します。
x 軸は、ドメイン名に悪性のフラグが付けられるまでの日数の差を表します。右側にある棒は、当社の検知システムが早い場合を表します。左側にある棒は、アグリゲーターが早い場合を表します。
ここでは、一般的な脅威ライフサイクルの非常に早い段階において検知がトリガーされる結果、NOD のアプローチが MTTD の点で優れていることがわかります。
しかし、NOD のアプリーチが他のアグリゲーターよりも遅いケースが多数あることも明らかです。このことは、2 つのシステムを最大限に活用するために、多面的なアプローチが必要なことを示しています。
図 2 の分析からも、最良のソリューションは、NOD のアプローチとアグリゲーターの両方を同時に使用することだという結論に至りました。
最近の NOD 監視
NOD データに関するもう 1 つの点は、NOD データの分析によって悪性の活動に関する独自のマクロ的視点を得ることができるということです。たとえば図 3 は、フラグが付けられた悪性ドメイン名の数を TLD 単位で時間とともに示しています。
ロシアの TLD(.ru)のふるまいは特に興味深いものです。そのベースラインは、1 日あたりの一意の新しい悪性ドメインがおよそ 1 万となっています。ロシアがウクライナに侵攻する 2 週間前から悪性の活動が徐々に増加し始め、1 日あたり約 4 万の悪性 NOD にまでなりました。その後、増加ペースは少し落ちてから、3 月後半に急激に上昇し、一意の悪性 .ru ドメイン名が 1 日あたり 25 万を超えました。
これらのドメインにフラグ付けすることで、当社のお客様は、これらの潜在的な脅威から加入者を保護することができました。
結論
セキュリティは多面化する必要があり、より多くのことがわかっているほど、世界をより安全にすることができます。NOD ベースの脅威検知は、スピーディーであるとともに、他の脅威インテリジェンスフィードを補完する機能です。
当社のチームは NOD の監視を継続し、これからも情報を収集し、セキュリティコミュニティーと知識を共有していきます。
今後のブログ投稿では、NOD データセットに関する機械学習ベースのアルゴリズムを追加する方法について詳しく説明します。
当社のセキュリティリサーチのチーム、脅威インテリジェンスチームなどの素晴らしいチームの成果を見逃すことがないようにするために、 Twitter で Akamai をフォロー して、新たなリサーチに関する情報をご確認ください。