Sinalização de 13 milhões de domínios mal-intencionados em 1 mês com domínios observados recentemente
por Stijn Tilborghs e Gregório Ferreira
Resumo executivo
Os pesquisadores da Akamai sinalizaram quase 79 milhões de domínios como mal-intencionados no primeiro semestre de 2022, com base em um conjunto de dados de domínios observados recentemente. Isso equivale a aproximadamente 13 milhões de domínios mal-intencionados por mês e representa 20,1% de todos os NODs que foram resolvidos com sucesso.
Comparamos uma abordagem de detecção baseada em NODs com outro agregador conhecido de inteligência de ameaças em termos de cobertura e tempo médio para detectar e encontramos um excelente valor complementar.
A detecção de ameaças baseada em NODs nos permite analisar a “cauda longa” de consultas DNS (Sistema de Nomes de Domínio) e sinalizar novas ameaças mal-intencionadas logo no início dos respectivos ciclos de vida.
Introdução
Atualmente, as instâncias do CacheServe da Akamai lidam com mais de 80 milhões de consultas de DNS por segundo globalmente, isto é, aproximadamente 7 trilhões de solicitações por dia. Um subconjunto anonimizado desses dados chega à nossa equipe e nossos pesquisadores trabalham arduamente para tornar a vida online mais segura.
Fazemos parte da Akamai Security Research. Produzimos inteligência de DNS e IP para ISPs (Internet Service Providers) e empresas, para que usuários finais, como você e eu, possam navegar na Web de forma segura e protegida.
Como você sabe, os destinos dos links da Web nem sempre são seguros. Se identificarmos um destino como mal-intencionado, nossos sistemas poderão intervir para que você não se torne vítima de ransomware, malware, phishing e outras ameaças.
Neste artigo, você aprenderá sobre um de nossos ativos mais poderosos: o conjunto de dados de NODs e como o usamos para sinalizar novos nomes de domínio mal-intencionados com MTTD (Mean Time To Detect) muito curto.
Vamos apresentar o conceito de NODs e mostrar como eles possibilitam que nossa equipe proteja clientes e usuários finais. Em uma publicação futura, descreveremos mais o processo por trás desta pesquisa sob a perspectiva de machine learning.
Domínios observados recentemente
Alguns de nossos clientes de CacheServe (geralmente ISPs) nos fornecem campos de consulta DNS anonimizados, como o FQDN (Fully Qualified Domain Name) solicitado e o endereço IP resolvido. A partir desses dados, extraímos os nomes de domínio e acompanhamos quando cada um foi observado pela última vez. Sempre que um nome de domínio é consultado pela primeira vez nos últimos 60 dias, nós o consideramos um NOD: um domínio observado recentemente.
O conjunto de dados de NODs nos permite ampliar o que é frequentemente chamado de “cauda longa”, neste caso, a cauda longa das consultas de DNS. É nesse conjunto de dados que encontramos nomes de domínio registrados recentemente, erros de digitação e domínios que raramente são consultados em uma escala global.
Outras organizações que estão monitorando os NODs declararam que o intervalo de tempo usado é de 30 minutos a 72 horas. Isso está longe do período de 60 dias que estamos usando. Usamos um período tão longo para garantir que estamos observando apenas os nomes de domínio mais recentes e raramente consultados. É nesse subconjunto que nossos pesquisadores encontraram grandes quantidades de novas e futuras ciberameaças baseadas em DNS.
Além disso, também rastreamos as consultas de DNS que nunca foram resolvidas com êxito (erro NXDOMAIN). Fazemos isso porque a maioria dos domínios aos quais o malware tenta se conectar nem está registrada. Isso leva a um aumento do tamanho de nosso conjunto de dados de aproximadamente uma ordem de magnitude, mas permite que nossos pesquisadores de segurança olhem para uma imagem completa em vez de uma amostra tendenciosa.
Em resumo, esse é o nosso conjunto de dados de NODs. Além disso, ele nos fornece uma grande variedade de opções para análise.
Atividade mal-intencionada em dados de NOD
Na Figura 1, há uma amostra aleatória de 3 de março de 2022 que dá uma ideia de como é o conjunto de dados de NOD.
aa65ef[.]ch
i3oq6565ybln1l14[.]com
1z4e1feu8flth[.]com
fkyjtgqnodzv0n0[.]com
xmyc[.]ren
bx76-lzlirxpp6[.]com
vcd7alw-x34ujurr7aeciih9l8[.]com
yporqueyo[.]com
avdl2-li2tmw86[.]com
vnfwjetwwqqddnundjgk[.]jp
lynnesilkmandesig[.]com
aa73ve[.]ch
Fig. 1: Uma amostra aleatória do conjunto de dados de NOD
Depois de ver a Figura 1, você não vai se surpreender ao saber que os NODs têm alta probabilidade de serem mal-intencionados.
Em um dia típico, nossa equipe observa um total de aproximadamente 12 milhões de novos NODs, dos quais um pouco mais de 2 milhões se resolvem com sucesso. Nos primeiros 6 meses de 2022, quase 79 milhões de nomes de domínio foram sinalizados como mal-intencionados graças à detecção de ameaças baseada em NODs. Isso torna o conjunto de dados de NODs um componente-chave de nossos mecanismos de detecção.
Muitos nomes no conjunto de dados de NODs parecem nomes que você nunca digitaria em uma janela do navegador. Eles não são legíveis por humanos, parecem ter sido gerados por computador. Por que vemos tantos desses nomes?
Agentes mal-intencionados geralmente registram milhares de nomes de domínio em massa. Dessa forma, se um ou mais desses domínios forem sinalizados e bloqueados (por exemplo, por nossa equipe), os agentes poderão simplesmente mudar para um dos outros domínios que registraram. Normalmente, esses nomes de domínio são criados de forma programada usando um DGA (Domain Generation Algorithm). Esse processo automatizado faz parte do que torna esses NODs perigosos. É uma maneira persistente de atacar uma organização.
Geralmente é o caso da inserção de dígitos nos nomes, de modo que haja uma baixa chance de que os domínios gerados já tenham sido registrados.
As ameaças comuns que usam a técnica acima incluem malware, ataques de ransomware, criptomineradores, typosquatting (usado no sequestro de URL, geralmente para phishing), botnets e APTs. Quanto mais rápido e melhor detectarmos esses tipos de padrões e nomes gerados por computador, mais ameaças poderemos neutralizar antes que causem danos.
Detecção de atividade mal-intencionada em dados de NODs
Veja esta pequena seleção dos métodos de detecção baseados em NODs usados por nossa equipe.
Banco de dados de DGA conhecido
Vamos analisar melhor dois nomes de domínio dos exemplos anteriores: aa65ef[.]ch e aa73ve[.]ch. Ambos compartilham o mesmo comprimento, TLD (top-level domain) e localização de caracteres alfabéticos e numéricos, o que sugere que provavelmente foram criados pelo mesmo DGA.
Quando conhecemos o funcionamento interno de um DGA por meio da engenharia reversa, é fácil gerar nomes que esperamos ver no futuro. É exatamente isso que um de nossos projetos internos fez: Criamos um banco de dados com nomes previstos para todas as famílias DGA conhecidas para até 30 anos no futuro. O que tornou isso possível foi o compartilhamento de conhecimento público na comunidade de cibersegurança. Agrademos aos colegas por compartilharem o conhecimento!
Sempre que detectamos um novo NOD, procuramos uma correspondência com esse banco de dados. Se ela existir, consideramos o NOD mal-intencionado. Aproximadamente 0,1% dos NODs resolvidos com êxito são atualmente sinalizados como mal-intencionados por meio desse método.
Isso significa que o conhecimento coletado da comunidade de cibersegurança está causando um impacto efetivo aqui e protegendo os usuários finais. Mas isso também significa que esse método está detectando apenas uma pequena fração da atividade mal-intencionada e que precisamos de mais mecanismos de detecção, além desse.
Análise heurística
Nossos pesquisadores vêm trabalhando com os dados de NODs há muitos anos. Com a análise manual e a pesquisa nos últimos 12 anos, criamos mais de 190 regras de detecção específicas para NODs.
Essas regras heurísticas,responsáveis atualmente pela maioria de todas as detecções, são baseadas em entradas, como o próprio nome de domínio, respectivo TLD, IP resolvido, ASNs (Autonomous System Numbers) e assim por diante.
Um exemplo dessa regra pode ser:
Marcar todos os NODs com:
Uma classificação de risco ASN acima de 0,50
Uma classificação de risco de TLD acima de 0,75
Endereços IP resolvidos no intervalo 127.0.0.0/8
Um nome de domínio registrado que começa com um dígito
Como sabemos que uma regra não cria resultados falso-positivos? A experiência da equipe desempenha um papel importante aqui. Ao longo dos anos, as regras certamente causaram um número razoável de falsos positivos. Temos um mecanismo de geração de relatórios para nossos clientes, a fim de que todos os erros sejam analisados e tratados rapidamente.
No primeiro semestre de 2022, dos 79 milhões de domínios sinalizados resultantes da análise heurística, mais tarde encontramos 329 falsos positivos. Isso equivale a uma taxa de descobertas falsas de 0,00042%.
Nossa equipe de cientistas de dados está atualmente trabalhando em uma abordagem baseada em ML (Machine Learning) para estender a heurística e aumentar ainda mais a cobertura. Escreveremos sobre essa abordagem em uma futura postagem no blog.
Detecção de phishing
Para cada NOD que vemos, verificamos a semelhança com uma lista de nomes de marcas e websites conhecidos. Se vemos um novo NOD com similaridade muito alta, isso pode ser motivo suficiente para sinalizá-lo como mal-intencionado.
Em casos de similaridade um pouco menor (mas ainda alta), recorremos a outros dados para fundamentar nossa decisão. Por exemplo: Se, após a resolução, o nome do domínio apontar para um ASN com uma classificação de alto risco, a probabilidade de ser um ataque de phishing aumenta.
Detecção rápida de ameaças
A grande vantagem do NOD é o seu MTTD muito curto.
Os dados de NOD nos permitem classificar um novo domínio logo no início do ciclo de vida da ameaça. Tudo o que precisamos para acionar nossos mecanismos de detecção é uma única consulta de DNS para um domínio mal-intencionado criado recentemente.
Vejamos alguns exemplos:
Estamos tentando criar uma tentativa de phishing no “país de hackers do mal”. Os agentes mal-intencionados estão buscando safebank[.]abc e configuraram um website falso em savebank[.]abc.
E-mails são enviados para que as pessoas acessem o website falso. Um desses e-mails chega a John, que mora no Reino Unido e é assinante de um ISP que usa CacheServe. O ISP também está compartilhando metadados CacheServe com nossa equipe Akamai, e John optou pelo pacote de segurança aprimorado do ISP fornecido pela Akamai, assim como todos os assinantes do outro provedor.
John clica no link que leva ao website de phishing. Como o website é completamente novo e não foi sinalizado como mal-intencionado por ninguém, John infelizmente poderá visitá-lo.
No entanto, nos bastidores, nossa equipe agora recebe uma nova entrada no conjunto de dados de NOD para savebank[.]abc. Nossa detecção de phishing o identifica imediatamente como um erro ortográfico de safebank[.]abc.
O domínio é sinalizado como mal-intencionado. Isso é feito em cascata para o ISP. A partir desse ponto, todos os assinantes do ISP estão protegidos contra esse esquema de phishing. Mesmo que eles cliquem no link de phishing, eles não conseguirão visitar o website falso.
John pode ter sido a primeira vítima do website de phishing. Mas, no que diz respeito às pessoas protegidas pela nossa equipe, ele também é o último
Todos os nossos sistemas e regras de detecção baseados em NOD são totalmente automatizados. Isso significa que, uma vez identificado um novo NOD, o tempo necessário para classificá-lo como mal-intencionado passou a ser minutos, em vez de horas ou dias. Não é necessária a intervenção humana.
Tudo isso torna a nossa detecção baseada em NOD mais rápida do que muitos outros mecanismos de detecção de ameaças. Ela permite que nossa equipe mitigue rapidamente as novas ameaças baseadas em DNS.
Em resumo:
O evento que aciona a detecção de ameaças é posicionado muito cedo no ciclo de vida das ameaças.
Os próprios sistemas de detecção são muito rápidos, porque são totalmente automatizados.
Qual é nosso nível de eficácia?
Para que possamos fazer uma comparação, vamos examinar os NODs que foram resolvidos com sucesso, porque é improvável que encontremos nomes de domínio não resolvidos em conjuntos de dados externos. Portanto, todos os números mencionados abaixo são apenas para o rcode 0. Também nos limitamos a um cronograma de 1º de janeiro de 2022 até o final de junho de 2022.
Nesse período, os sistemas de detecção de nossa equipe sinalizaram 20,1% de todos os NODs como mal-intencionados. Isso equivale a quase 79 milhões de nomes de domínio maliciosos exclusivos neste período de 6 meses, com base apenas no rcode 0.
Decidimos fazer uma avaliação usando como referência um grande e conhecido agregador de inteligência de ameaças. Vamos chamar essa referência de “o agregador”.
De um lado, pegamos todos os NODs que foram sinalizados como mal-intencionados pelo projeto de análise heurística descrito anteriormente.
De outro lado, pegamos todos os nomes de domínio que tinham sido pesquisados pelo menos uma vez no banco de dados mencionado acima.
Descobrimos que 91,4% dos NODs que sinalizamos como mal-intencionados não estavam presentes.
Também descobrimos que, dentre os nomes que conseguimos encontrar, mais de 99,9% tinham “reputação” 0, o que significa que ainda não tinham sido marcados como inofensivos ou mal-intencionados (eles foram simplesmente pesquisados por alguém).
Resumindo, para todos os nomes de domínio resolvidos com sucesso que nossos pesquisadores sinalizaram por meio das regras heurísticas, só conseguimos obter uma opinião do agregador conhecido para aproximadamente 1 em cada 11.000 nomes de domínio.
Fizemos melhor ou pior do que eles? Esta é uma pergunta que não podemos responder aqui.
O que podemos concluir a partir dos números acima é que o conjunto de dados de NODs fornece muito valor complementar, pois há apenas uma pequena sobreposição entre a resposta dele e a de outros feeds de inteligência contra ameaças importantes.
Qual é nosso nível de rapidez?
Agora, vamos analisar o tempo de detecção.
Usamos a mesma configuração de dados acima e ampliamos a pequena sobreposição que encontramos, o que representa casos em que o agregador e nossa equipe sinalizaram um nome de domínio como mal-intencionado. Observe que ainda estamos observando aqui apenas um de nossos projetos de detecção, ou seja, a análise heurística.
A Figura 2 aborda a pergunta: Quando ambos os sistemas sinalizam um nome de domínio como mal-intencionado, qual dos dois o faz mais cedo e qual é a diferença de tempo?
Descobrimos que, nos casos em que o agregador e nossa equipe sinalizam um nome de domínio como mal-intencionado, normalmente fazemos isso em 29,6 dias antes do agregador (ou seja, um MTTD quase 30 dias mais curto).
A Figura 2 detalha esse número.
O eixo y representa a contagem de nomes de domínio mal-intencionados.
O eixo x representa a diferença no número de dias entre a sinalização de um nome de domínio como mal-intencionado e sua sinalização pelo outro sistema. As barras do lado direito representam casos em que nosso sistema de detecção foi mais rápido. As barras no lado esquerdo representam casos em que o agregador foi mais rápido.
Aqui a abordagem de NOD mostra realmente seu excelente MTTD como resultado do posicionamento dos respectivos acionadores de detecção muito cedo no ciclo de vida de uma ameaça típica.
No entanto, também fica claro que há vários casos em que a abordagem de NOD é mais lenta do que o outro agregador. Isso demonstra a necessidade de uma abordagem multifacetada para que possamos obter o melhor dos dois sistemas.
A partir de nossa análise da Figura 2, concluímos, mais uma vez, que a melhor solução é usar a abordagem de NOD e o agregador ao mesmo tempo.
Uma observação de NOD recente
Outro fator relacionado aos dados de NODs é que a análise deles pode nos fornecer uma perspectiva macro exclusiva sobre atividades mal-intencionadas. Por exemplo, a Figura 3 mostra o número de nomes de domínio mal-intencionados que sinalizamos por TLDs ao longo do tempo.
O comportamento do TLD russo .ru é particularmente interessante. A linha de base dele é de aproximadamente 10.000 novos domínios mal-intencionados exclusivos por dia. Duas semanas antes da invasão da Ucrânia pela Rússia, começamos a ver um aumento constante de atividades mal-intencionadas, que chegaram a até quase 40.000 NODs mal-intencionados por dia. Essa atividade diminuiu um pouco antes de resultar em um pico enorme de mais de 250.000 nomes de domínio .ru maliciosos únicos por dia na segunda quinzena de março.
A sinalização desses domínios para nossos clientes permitiu que eles mantivessem os assinantes seguros contra essas ameaças em potencial.
Conclusão
A segurança tem de ser multifacetada e, quanto mais soubermos, mais seguro poderemos tornar o mundo. A detecção de ameaças baseada em NOD é rápida e muito complementar a outros feeds de inteligência contra ameaças.
Nossa equipe continua a monitorar os NODs e continuará a aprender e compartilhar nosso conhecimento com a comunidade de segurança em publicações futuras.
Em uma futura publicação no blog, vamos expandir a forma como estamos adicionando algoritmos baseados em machine learning no conjunto de dados de NODs.
Para garantir que você não perca nenhum trabalho de nossa equipe de pesquisa de segurança, de nossa equipe de inteligência contra ameaças ou de qualquer outra de nossas admiráveis equipes, lembre-se de fazer o seguinte siga-nos no Twitter para obter informações sobre pesquisas futuras.