새로 관찰된 도메인에서 한 달 만에 1300만 건의 악성 도메인 신고
스티진 틸보그스(Stijn Tilborghs)와 그레고리오 페헤이라(Gregorio Ferreira) 작성
핵심 요약
Akamai 연구자들은 2022년 전반기에 새로 관찰된 도메인 데이터세트에 기반해 거의 7,900만 개의 도메인을 악성으로 신고했습니다. 이는 월 약 1,300만 건에 해당하며, 성공적으로 해결된 모든 NOD의 20.1%를 차지합니다.
탐지의 범위와 평균 시간 측면에서 NOD 기반 탐지 접근 방식을 잘 알려진 다른 위협 인텔리전스 애그리게이터와 비교했으며, 탁월한 상보 값을 발견했습니다.
NOD 기반 위협 탐지를 사용하면 DNS 쿼리의 '롱 테일'을 살펴보고 위협의 생애 주기 극초반에 새로운 악성 위협을 신고할 수 있습니다.
서론
Akamai CacheServe 인스턴스는 현재 전 세계에서 초당 8,000만 건 이상의 DNS 쿼리 또는 하루 약 7조 건의 요청을 처리하고 있습니다. 이러한 데이터의 익명화된 하위 집합이 저희 팀에 도달하며, 여기에서 연구자들은 더 안전한 온라인 생활을 위해 열심히 노력하고 있습니다.
저희는 Akamai 보안 연구에 참여하고 있으며, 여러분이나 저희 같은 최종 사용자가 안전하게 보호 받는 방식으로 웹을 탐색할 수 있도록 ISP와 엔터프라이즈를 위한 DNS 및 IP 인텔리전스를 만듭니다.
여러분도 아시다시피 웹 링크의 대상이 항상 안전하지는 않습니다. 이러한 대상을 악성으로 판단하면 여러분이 랜섬웨어, 멀웨어, 피싱, 기타 수많은 위협의 희생양이 되지 않도록 저희 시스템에서 개입할 수 있습니다.
이 문서에서는 가장 강력한 자산 중 하나인 새로 관찰된 도메인(NOD) 데이터 집합과 이를 통해 매우 짧은 평균 탐지 시간(MTTD)에 새로운 악성 도메인 이름을 신고하는 방법을 자세히 알아봅니다.
NOD의 개념을 소개하고 저희 팀이 이를 통해 고객과 최종 사용자를 어떻게 보호하는지도 보여 드리겠습니다. 이후 게시물에서는 머신러닝의 관점에서 이 연구 뒤에 숨어 있는 더 많은 프로세스를 개괄적으로 살펴봅니다.
새로 관찰된 도메인
당사의 CacheServe 고객(보통 ISP) 중에는 요청된 FQDN 및 확인된 IP 주소 같이 익명화된 DNS 쿼리 필드를 제공해 주는 경우가 있습니다. 저희는 이러한 데이터에서 도메인 이름을 추출하고 모든 도메인 이름이 마지막으로 관찰된 시점을 추적합니다. 도메인이 지난 60일 이내에 처음으로 쿼리되면 이를 NOD,즉 새로 관찰된 도메인으로 봅니다.
NOD 데이터 집합을 사용하면 보통 '롱테일'이라고 하는 것을 자세히 들여다볼 수 있는데, 여기에서는 DNS 쿼리의 롱테일을 살펴보게 됩니다. 이 데이터 집합에서는 새로 등록된 도메인 이름, 오타, 전 세계적으로 거의 쿼리되지 않는 도메인을 찾을 수 있습니다.
저희가 아는 다른 조직에서는 30분에서 72시간의 기간을 사용해 NOD를 모니터링하기도 합니다. 이는 저희가 사용하는 60일 기간과는 상당한 차이가 있습니다. 저희는 가장 최근에, 가장 드물게 쿼리되는 도메인 이름만 살펴보기 위해 이처럼 긴 기간을 사용하는 것입니다. 이와 같은 하위 집합에서 연구자들은 새롭게 나타날 DNS 기반 사이버 위협을 찾았습니다.
그뿐 아니라 저희는 한 번도 제대로 해결된 적 없는 DNS 쿼리를 추적하기도 합니다(NXDOMAIN). 멀웨어가 연결하려고 하는 대부분의 도메인이 등록조차 되어 있지 않기 때문에 이러한 작업을 수행하는 것입니다. 이로 인해 데이터 집합의 크기와 대략적인 규모가 증가하지만 보안 연구자들이 이를 바탕으로 편향된 샘플이 아닌 전체적인 그림을 살펴볼 수 있습니다.
간단하게 말해 이것이 바로 NOD 데이터 집합이며, 이는 저희에게 다양한 분석 옵션을 제공해 줍니다.
NOD 데이터의 악성 활동
NOD 데이터 집합이 실제 어떤 모습인지 살펴볼 수 있도록 그림 1은 2022년 3월 3일자 랜덤 샘플을 보여줍니다.
aa65ef[.]ch
i3oq6565ybln1l14[.]com
1z4e1feu8flth[.]com
fkyjtgqnodzv0n0[.]com
xmyc[.]ren
bx76-lzlirxpp6[.]com
vcd7alw-x34ujurr7aeciih9l8[.]com
yporqueyo[.]com
avdl2-li2tmw86[.]com
vnfwjetwwqqddnundjgk[.]jp
lynnesilkmandesig[.]com
aa73ve[.]ch
그림 1: NOD 데이터 집합의 랜덤 샘플
그림 1을 보고 나면 NOD가 악성일 가능성이 꽤 높다는 사실이 놀랍지 않을 것입니다.
평소에 저희 팀에서는 약 1,200만 건의 새로운 NOD를 관찰하고 있으며, 이 중 200만 건 이상이 성공적으로 해결됩니다. 2022년 상반기에는 NOD 기반 위협 탐지 덕분에 약 7,900만 건의 도메인 이름이 악성으로 신고되었습니다. 이로 인해 NOD 데이터 집합은 탐지 메커니즘의 주요 구성요소로 자리매김하고 있습니다.
NOD 데이터 집합에 포함된 많은 이름은 브라우저 창에 전혀 입력한 적 없는 이름 같습니다. 인간은 읽을 수 없고, 컴퓨터가 생성한 것처럼 보입니다. 이런 이름이 왜 이렇게 많을까요?
악의적인 행위자는 수많은 도메인 이름을 일괄적으로 등록하는 경우가 많습니다. 이런 식으로 하면 저희 팀에서 하나 이상의 도메인을 신고하거나 차단하더라도 해당 행위자가 소유하고 있는 다른 도메인으로 간단하게 전환할 수 있습니다. 보통 이러한 도메인 이름은 도메인 생성 알고리즘(DGA)을 사용해 프로그래밍 방식으로 생성됩니다. 이 자동화된 프로세스는 NOD가 위험해지는 요인 중 하나이기도 합니다. 조직을 지속적으로 공격할 수 있는 방법이기 때문입니다.
이름에 숫자를 삽입하면 생성된 도메인이 이미 등록되어 있을 가능성이 낮기 때문에 이렇게 하는 경우도 많습니다.
위 기법을 사용하는 일반적인 위협으로는 멀웨어, 랜섬웨어 공격, 암호화폐 채굴자, 타이포스쿼팅(피싱에도 많이 사용됨), 봇넷, APT가 있습니다. 이러한 종류의 패턴과 컴퓨터 생성 이름을 더 정확하고 빠르게 탐지할수록 피해를 입히기 전에 더 많은 위협을 해결할 수 있습니다.
NOD 데이터의 악성 활동 탐지
저희 팀에서 선정한 몇 가지 NOD 기반 탐지 기법은 다음과 같습니다.
알려진 DGA 데이터베이스
이전 예시에서 2개의 도메인 이름인 aa65ef[.]ch과 aa73ve[.]ch을 살펴보았습니다. 이 둘은 길이와 최상위 도메인(TLD), 영숫자 위치가 같으므로 동일한 DGA에서 생성되었을 가능성이 매우 높음을 시사합니다.
리버스 엔지니어링을 통해 DGA의 내부 원리를 알았으니 향후 나타날 것으로 예상되는 이름을 손쉽게 생성할 수 있습니다. 이것이 바로 저희 내부 프로젝트에서 수행한 작업 중 하나입니다. 알려진 모든 DGA군의 이름을 향후 최대 30년까지 예측하여 데이터베이스로 만들었습니다. 이것은 사이버 보안 커뮤니티에서 공개적으로 지식을 공유해 준 덕분에 가능할 수 있었습니다. 지식을 나누어 준 동료들께 감사 말씀 드립니다.
새로운 NOD를 탐지할 때마다 이 데이터베이스와 일치하는 항목을 찾아봅니다. 일치하는 항목이 존재하면 그 NOD는 악성으로 간주합니다. 현재 성공적으로 확인되는 NOD의 약 0.1%가 이 방식을 통해 악성으로 신고되고 있습니다.
이는 곧 사이버 보안 커뮤니티에서 수집한 지식이 활발하기 영향력을 발휘하며 최종 사용자를 보호하고 있다는 의미입니다. 한편으로는 이 방식이 악성 활동의 극히 일부만을 탐지하므로 이외에도 추가적인 탐지 메커니즘이 필요하다는 뜻이기도 합니다.
휴리스틱 분석
저희 연구자들은 수년 간 NOD 데이터를 연구해 왔습니다. 지난 12년 간 직접 분석과 연구를 통해 190가지 이상의 NOD별 탐지 규칙을 만들어냈습니다.
이와 같은 휴리스틱 분석은 현재 탐지의 대부분을 담당하고 있으며, 도메인 자체, TLD, 확인된 IP, 자동 시스템 번호(ASN) 등의 입력을 바탕으로 합니다.
이러한 규칙의 예는 다음과 같습니다.
다음에 해당하는 모든 NOD는 신고합니다.
ASN 위험 점수 0.50 이상
TLD 위험 점수 0.75 이상
127.0.0.0/8 범위에 있는 확인된 IP 주소
숫자로 시작하는 등록된 도메인 이름
규칙이 오탐지 결과를 생성하지 않는지 어떻게 알 수 있을까요? 여기에서 팀의 경험이 큰 역할을 합니다. 오랫동안 이러한 규칙은 분명 상당한 수의 오탐지를 유발해 왔습니다. 고객이 어떤 오류도 빠르게 분석하고 처리할 수 있도록 보고 메커니즘을 마련해 두었습니다.
2022년 상반기에 휴리스틱 분석을 통해 신고된 7,900만 건의 도메인 중 나중에 오탐지로 밝혀진 것은 329건이었습니다. 이는 0.00042%의 오탐률에 해당하는 수치입니다.
저희 데이터 과학자 팀은 현재 휴리스틱을 확장하고 범위를 더욱 넓히기 위해 ML 기반 접근 방식을 연구하고 있습니다. 이 접근 방식에 관해서는 향후 블로그 게시물로 작성하겠습니다.
피싱 탐지
확인되는 새로운 NOD마다 알려진 브랜드 이름 및 유명 웹 사이트로 이루어진 목록과 유사성을 확인합니다. 유사성이 매우 높은 NOD를 새로 발견하면 해당 NOD를 악성으로 신고할 충분한 사유가 될 수 있습니다.
그보다는 유사성이 약간 낮지만 그래도 여전히 높은 경우 의사결정에 도움이 되는 다른 데이터를 가지고 옵니다. 예를 들면 다음과 같습니다. 확인해 보니 도메인 이름이 위험 점수가 높은 ASN를 가리키는 경우피싱 공격일 가능성이 높아집니다.
신속한 위협 탐지
NOD의 큰 장점 중 하나는 매우 짧은 MTTD입니다.
NOD 데이터를 사용하면 위협 생애 주기의 극초반에 새로운 도메인을 분류할 수 있습니다. 새로 생성된 악성 도메인에 대한 단일 DNS 쿼리만 있으면 탐지 메커니즘을 트리거할 수 있습니다.
예를 살펴 보겠습니다.
“악성 해커국”에서 발생된 피싱 공격을 보고 있습니다. 악성 행위자는 safebank[.]abc를 타겟팅하고 있으며 savebank[.]abc에 가짜 웹사이트를 만들어 두었습니다.
사람들이 가짜 웹사이트를 방문하도록 이메일이 전송되는데, 이러한 이메일 중 하나가 영국에 거주 중이며 CacheServe를 사용하는 ISP의 구독자인 John에게 전달됩니다. 이 ISP는 저희 Akamai 팀과 CacheServe 메타데이터도 공유하며, John은 다른 모든 ISP의 구독자와 마찬가지로 Akamai가 ISP에 제공한 강화된 보안 패키지를 선택했습니다.
John은 피싱 웹사이트 링크를 클릭합니다. 완전히 새롭고 누구도 악성으로 신고한 적이 없는 웹사이트이기 때문에 안타깝게도 John은 웹사이트를 방문할 수 있습니다.
그러나 이제 이면에서는 저희 팀이 savebank[.]abc에 대한 NOD 데이터 집합의 새로운 입력을 받습니다. 피싱 탐지는 이를 safebank[.]abc의 철자 실수로 즉시 파악하고,
도메인은 악성으로 신고됩니다. 이 과정은 ISP에 단계적으로 전달됩니다. 이 지점부터 모든 ISP의 구독자는 이 피싱 사기로부터 보호를 받습니다. 피싱 링크를 클릭하더라도 가짜 웹사이트를 방문할 수 없게 됩니다.
John은 피싱 웹사이트의 첫 번째 피해자가 될 뻔 했습니다. 하지만 저희 팀에서 보호하는 사람들과 관련되어 있는 한 John이 피해자가 될 가능성은 매우 낮습니다.
저희 NOD 기반 탐지 시스템과 규칙은 모두 완전히 자동화되어 있습니다. 이 덕분에 새로운 NOD가 식별되고 나면 악성으로 분류하는 데 드는 시간이 일 또는 시간이 아닌 분 단위로 측정됩니다. 사람의 개입은 필요하지 않습니다.
이 모든 것으로 인해 다른 수많은 위협 탐지 메커니즘에 비해 NOD 기반 위협 탐지가 속도의 우위를 누릴 수 있습니다. 이를 통해 저희 팀이 새로운 DNS 기반 위협을 빠르게 해결하는 것도 가능해집니다.
이 내용은 다음과 같이 요약할 수 있습니다.
위협 탐지를 트리거하는 이벤트는 위협 생애 주기의 극초반에 배치되어 있습니다.
탐지 시스템 자체는 완전히 자동화되어 있으므로 매우 빠릅니다.
얼마나 효율적일까요?
비교해 볼 수 있도록 성공적으로 확인된 NOD를 자세히 들여다 보겠습니다. 외부 데이터 집합에서 확인되지 않은 도메인 이름을 찾을 가능성은 없기 때문입니다. 따라서 아래에 언급된 모든 숫자는 rcode 0만을 기준으로 합니다. 또한 기간은 2022년 1월 1일부터 2022년 6월 말까지로 제한합니다.
이 기간에 저희 팀의 탐지 시스템은 모든 NOD의 20.1%를 악성으로 신고했습니다. 이는 수치는 rcode 0만을 기준으로 했을 때 지난 6개월간의 고유한 악성 도메인 이름 수인 약 7,900만 건에 해당합니다.
저희는 잘 알려진 대규모 위협 인텔리전스 애그리게이터를 참조로 사용하여 평가를 수행하기로 했습니다. 이 참조를 '애그리게이터'라고 하겠습니다.
한 편에서는 앞서 설명한 휴리스틱 분석 프로젝트에서 악성으로 신고한 NOD를 모두 가져왔습니다.
다른 한 편에서는 위에서 언급한 데이터베이스에서 한 번 이상 검색한 모든 도메인 이름을 가져왔습니다.
그 결과, 악성으로 신고한 NOD 중 91.4%가 존재하지 않는 것으로 확인되었습니다.
또한 찾을 수 있는 이름 중 99.9% 이상의 "평판"이 0이라는 점도 알 수 있었는데, 이는 이러한 이름이 누군가에 의해 검색되었을 뿐 무해하거나 악성인 것으로 신고된 적이 없다는 사실을 의미합니다.
요약하자면 연구자가 휴리스틱 규칙을 통해 신고해 성공적으로 확인된 모든 도메인 이름의 경우, 알려진 애그리게이터에서는 11,000개 도메인 이름당 약 1개꼴로 의견을 얻을 수 있었습니다.
저희의 성과는 이들보다 더 나았을까요? 아니면 나빴을까요? 여기에서는 대답할 수 없는 문제입니다.
위 수치에서 내릴 수 있는 결론은 출력과 다른 대규모 위협 인텔리전스 피드 간에 겹치는 부분이 매우 작기 때문에 NOD 데이터 집합은 많은 상보 값을 제공한다는 점입니다.
속도는 얼마나 빠를까요?
이제 탐지 시간을 분석해 보겠습니다.
위와 같은 데이터 설정을 가져와서 찾아낸 소수의 중첩을 자세히 들여다 볼텐데, 이는 애그리게이터와 저희 팀이 모두 도메인 이름을 악성으로 신고한 경우를 나타냅니다. 여기에서는 여전히 탐지 프로젝트 중 하나, 즉 휴리스틱 분석을 살펴봅니다.
그림 2는 다음과 같은 질문을 나타냅니다. 두 시스템 모두 도메인 이름을 악성으로 신고할 경우 둘 중 어느 것이 빠르고, 시간차는 얼마나 될 것인가?
애그리게이터와 저희 팀 모두가 도메인 이름을 악성으로 신고할 경우 저희가 일반적으로 애그리게이터보다 29.6일 더 빠른 것으로 나타났습니다(즉, MTTD가 거의 30일 더 짧음).
그림 2는 이 숫자를 더욱 세분화해서 보여줍니다.
y축은 악성 도메인 이름의 수를 나타내고,
x축은 도메인 이름을 악성으로 신고한 일수의 차이와 다른 시스템에서 신고한 일수의 차이를 나타냅니다. 오른쪽의 막대는 저희 탐지 시스템이 더 빠른 경우를 나타내고, 왼쪽 막대는 애그리게이터가 더 빠른 경우를 나타냅니다.
여기에서 NOD 접근 방식은 훌륭한 MTTD를 보여주는데, 이는 탐지 트리거를 일반적인 위협의 생애 주기 극초반에 배치한 결과입니다.
그러나 NOD 접근 방식이 다른 애그리게이터에 비해 느린 경우가 많다는 사실도 명확합니다. 이는 두 시스템의 장점을 모두 활용할 수 있도록 다면적인 접근 방식이 필요하다는 점을 보여줍니다.
그림 2의 분석을 보면 NOD 접근 방식과 애그리게이터를 둘 다 동시에 사용하는 것이 가장 좋은 솔루션임을 다시금 확인할 수 있습니다.
최근 NOD 관찰
NOD 데이터에 관해 하나 더 짚고 넘어갈 점은 이러한 데이터를 분석하면 악성 활동에 관해 고유한 거시적 관점으로 볼 수 있다는 사실입니다. 예를 들어, 그림 3은 저희가 시간에 따라 TLD마다 신고한 악성 도메인의 수를 보여줍니다.
.ru 러시아 TLD의 동작이 특히 흥미롭습니다. 기준선은 하루 약 10,000건의 신규 고유 악성 도메인입니다. 러시아가 우크라이나를 침공하기 2주 전, 저희는 악성 활동이 일일 악성 NOD 약 4만 건까지 꾸준히 증가하는 것을 확인했습니다. 이러한 활동은 3월 중순, 고유한 악성 .ru 도메인 이름이 일 25만 건 이상에 달하며 정점을 찍기 직전부터 느려졌습니다.
고객을 위해 이런 도메인을 신고한 덕분에 구독자들은 잠재적인 위협으로부터 안전할 수 있었습니다.
결론
보안은 다면적이어야 하며, 많이 알수록 세상을 더 안전하게 만들 수 있습니다. NOD 기반 위협 탐지는 빠르고 다른 위협 인텔리전스 피드와 상호 보완적입니다.
저희 팀은 NOD를 꾸준히 모니터링하고 있으며, 앞으로도 게시물을 통해 보안 커뮤니티와 지식을 배우고 나누겠습니다.
향후 블로그 게시물에서는 NOD 데이터 집합에서 머신러닝 기반 알고리즘을 추가하는 방법을 확장할 예정입니다.
저희 보안 연구 팀이나 위협 인텔리전스 팀, 또는 인상적인 다른 팀의 소식을 놓치지 않으려면 Twitter에서 팔로우하기 하여 예정된 연구 정보를 확인해 보시기 바랍니다.