Detección de 13 millones de dominios maliciosos en 1 mes en los dominios que hemos observado recientemente
Por Stijn Tilborghs y Gregorio Ferreira
Resumen ejecutivo
Los investigadores de Akamai han identificado como maliciosos casi 79 millones de dominios en la primera mitad de 2022, según un conjunto de datos de dominios observados recientemente. Esto equivale aproximadamente a 13 millones de dominios maliciosos al mes y representa el 20,1 % de todos los NOD que se han resuelto correctamente.
Comparamos un enfoque de detección basado en NOD con otro conocido agregador de inteligencia sobre amenazas en términos de cobertura y tiempo medio de detección, y encontramos un excelente valor complementario.
La detección de amenazas basada en NOD nos permite observar la "larga cola" de consultas DNS e identificar nuevas amenazas maliciosas en una fase temprana del ciclo de vida de una amenaza.
Introducción
Las instancias de Akamai CacheServe gestionan actualmente más de 80 millones de consultas DNS por segundo, o aproximadamente 7 billones de solicitudes al día, procedentes de todo el mundo. Un subconjunto de estos datos anónimos llega a nuestro equipo, donde nuestros investigadores se esfuerzan por proteger nuestras actividades online.
Formamos parte del equipo de Investigación sobre seguridad de Akamai. Producimos inteligencia de IP y DNS para ISP y empresas, de modo que los usuarios finales (como usted y yo) puedan navegar por la Web de forma segura y protegidos.
Como probablemente sabe, los destinos de los enlaces web no siempre son seguros. Si identificamos un destino como malicioso, nuestros sistemas pueden intervenir para que el usuario no sea víctima de ransomware, malware, phishing o muchas otras amenazas.
En este artículo, aprenderá sobre uno de nuestros activos más potentes: el conjunto de datos de dominio observado recientemente (NOD) y cómo lo utilizamos para identificar nuevos nombres de dominio maliciosos con un tiempo medio de detección (MTTD) muy corto.
Presentaremos el concepto de los NOD y le mostraremos cómo permiten a nuestro equipo proteger a los clientes y usuarios finales. En una próxima publicación, describiremos el proceso que hay detrás de esta investigación desde la perspectiva del aprendizaje automático.
Dominios observados recientemente
Algunos de nuestros clientes de CacheServe (normalmente ISP) nos proporcionan campos de consulta DNS anónimos, como el FQDN solicitado y la dirección IP resuelta. A partir de esos datos, extraemos los nombres de dominio y hacemos un seguimiento del momento en el que cada nombre de dominio se observó por última vez. Cada vez que se ha consultado un nombre de dominio por primera vez en los últimos 60 días, lo consideramos un NOD: un dominio observado recientemente.
El conjunto de datos de NOD nos permite poner el foco sobre lo que a menudo se denomina "larga cola", en este caso, la larga cola de consultas DNS. En este conjunto de datos es donde se encuentran los nombres de dominio, errores tipográficos y dominios recién registrados que rara vez se consultan a escala global.
Otras organizaciones que sabemos que supervisan NOD han indicado que utilizan un intervalo de tiempo de entre 30 minutos y 72 horas, muy lejos de la ventana temporal de 60 días que utilizamos nosotros. Aplicamos un periodo tan largo para garantizar que buscamos exclusivamente los nombres de dominio más recientes y consultados con menos frecuencia. Es en este subconjunto donde nuestros investigadores han encontrado grandes cantidades de ciberamenazas nuevas y futuras basadas en DNS.
Además, también realizamos un seguimiento de las consultas DNS que nunca se resolvieron correctamente (NXDOMAIN). Hacemos esto porque la mayoría de los dominios a los que el malware intenta conectarse ni siquiera están registrados. Esto supone un aumento considerable del tamaño de nuestro conjunto de datos, pero permite a nuestros investigadores de seguridad tener una imagen completa en lugar de una muestra sesgada.
Esto es, en pocas palabras, nuestro conjunto de datos de NOD, que nos ofrece una gran variedad de opciones de análisis.
Actividad maliciosa en datos de NOD
Para hacerse una idea de cómo es realmente el conjunto de datos de NOD, la figura 1 representa una muestra aleatoria del 3 de marzo de 2022.
aa65ef[.]ch
i3oq6565ybln1l14[.]com
1z4e1feu8flth[.]com
fkyjtgqnodzv0n0[.]com
xmyc[.]ren
bx76-lzlirxpp6[.]com
vcd7alw-x34ujurr7aeciih9l8[.]com
yporqueyo[.]com
avdl2-li2tmw86[.]com
vnfwjetwwqqddnundjgk[.]jp
lynnesilkmandesig[.]com
aa73ve[.]ch
Fig. 1: Muestra aleatoria del conjunto de datos de NOD
Después de ver la figura 1, no se sorprenderá de que los NOD tengan una probabilidad bastante alta de ser maliciosos.
En un día normal, nuestro equipo observa aproximadamente un total de 12 millones de nuevos NOD, de los cuales poco más de 2 millones se resuelven con éxito. Durante los primeros 6 meses de 2022, casi 79 millones de nombres de dominio se identificaron como maliciosos gracias a la detección de amenazas basada en NOD. Esto convierte al conjunto de datos de NOD en un componente clave de nuestros mecanismos de detección.
Muchos nombres del conjunto de datos de NOD parecen nombres que un usuario nunca escribiría en una ventana del navegador. No son legibles por los humanos; parecen generados por un ordenador. ¿Por qué vemos tantos nombres de este tipo?
Los agentes maliciosos suelen registrar miles de nombres de dominio en bloque. De esta manera, si uno o más de sus dominios se identifican y bloquean (por ejemplo, por nuestro equipo), solo tienen que cambiar a uno de los otros dominios que poseen. Normalmente, estos nombres de dominio se crean mediante programación utilizando un algoritmo de generación de dominios (DGA). Este proceso automatizado es parte de lo que hace que estos NOD sean peligrosos. Es un método persistente de ataque a las organizaciones.
A menudo, se insertan dígitos en los nombres, por lo que hay pocas probabilidades de que los dominios generados ya se hayan registrado.
Entre las amenazas más comunes que utilizan la técnica anterior se incluyen malware, ataques de ransomware, criptominería, typosquatting (utilizado a menudo para ataques de phishing), botnets y APT. Cuanto mejor y más rápido detectemos este tipo de patrones y nombres generados por ordenador, más amenazas podremos neutralizar antes de que causen daños.
Detección de actividad maliciosa en datos de NOD
A continuación, se muestra una pequeña selección de los métodos de detección basados en NOD de nuestro equipo.
Base de datos DGA conocida
Analicemos dos nombres de dominio de los ejemplos anteriores: aa65ef[.]ch y aa73ve[.]ch. Ambos comparten la misma longitud, dominio de nivel superior (TLD), y ubicación de caracteres alfabéticos y numéricos, lo que sugiere que probablemente los creó el mismo DGA.
Una vez que conocemos el funcionamiento interno de un DGA a través de la ingeniería inversa, es fácil generar nombres que cabría esperar ver en el futuro. Esto es exactamente lo que ha hecho uno de nuestros proyectos internos: hemos creado una base de datos con nombres previstos para todas las familias de DGA conocidas para los próximos 30 años. Ha sido posible gracias al intercambio de conocimientos públicos en la comunidad de ciberseguridad. Queremos agradecer a nuestros colegas que hayan compartido con nosotros sus conocimientos.
Cada vez que detectamos un nuevo NOD, buscamos una coincidencia en esta base de datos. Si la encontramos, consideramos que el NOD es malicioso. Aproximadamente el 0,1 % de los NOD resueltos correctamente están actualmente marcados como maliciosos mediante este método.
Esto significa que los conocimientos recopilados de la comunidad de ciberseguridad están contribuyendo activamente para proteger a nuestros usuarios finales. Pero también significa que este método está detectando solo una pequeña parte de la actividad maliciosa y necesitamos más mecanismos de detección además de este.
Análisis heurístico
Nuestros investigadores han estado trabajando con datos de NOD durante muchos años. En los últimos 12 años, a través del análisis manual y la investigación, hemos creado más de 190 reglas de detección específicas para NOD.
A estas reglas heurísticas se debe actualmente la gran mayoría de todas las detecciones y se basan en entradas como el propio nombre de dominio, su TLD, IP resuelta, números de sistema autónomo (ASN), etc.
Un ejemplo de estas reglas podría ser el siguiente:
Marcar todos los NOD con:
Una puntuación de riesgo de ASN de más de 0,50
Una puntuación de riesgo de TLD superior a 0,75
Direcciones IP resueltas en el rango 127.0.0.0/8
Nombre de dominio registrado que comienza con un dígito
¿Cómo sabemos que una regla no genera falsos positivos? La experiencia del equipo también es clave. Ciertamente, a lo largo de los años, las reglas han causado un buen número de falsos positivos. Contamos con un mecanismo de notificación para nuestros clientes, de modo que los errores se puedan analizar y tratar rápidamente.
En la primera mitad de 2022, entre los 79 millones de dominios identificados como resultado del análisis heurístico, se encontraron 329 falsos positivos. Esto equivale a una tasa de detección de falsos positivos del 0,00042 %.
Nuestro equipo de científicos de datos está trabajando actualmente en un enfoque basado en el aprendizaje automático para ampliar la metodología heurística y aumentar aún más la cobertura. Trataremos este enfoque en una futura publicación del blog.
Detección de phishing
Comprobamos la similitud de cada nuevo NOD observado con una lista de nombres de marcas conocidas y sitios web populares. Observar una gran similitud en un nuevo NOD puede ser razón suficiente para marcar el NOD como malicioso.
Si la similitud es ligeramente menor (pero aún alta), utilizamos otros datos que nos ayuden a tomar la decisión. Por ejemplo: si, tras la resolución, el nombre de dominio señala a un ASN con una puntuación de riesgo alta, la probabilidad de que sea un ataque de phishing es mayor.
Detección rápida de amenazas
La gran ventaja de un NOD es que su tiempo medio de detección es muy corto.
Los datos de NOD nos permiten clasificar un nuevo dominio en una fase temprana del ciclo de vida de la amenaza. Todo lo que necesitamos para activar nuestros mecanismos de detección es una única consulta DNS a un dominio malicioso recién creado.
Veamos un ejemplo:
Se trata de un intento de phishing que se está preparando en "el país de un hacker malvado". Los actores malintencionados están dirigiendo sus ataques a safebank[.]abc y han creado un sitio web falso en savebank[.]abc.
Se envían correos electrónicos a personas con el fin de que visiten el sitio web falso. Uno de esos correos electrónicos llega a John, que vive en el Reino Unido y es suscriptor de un ISP que utiliza CacheServe. El ISP también comparte metadatos de CacheServe con nuestro equipo de Akamai y John ha optado por el paquete de seguridad mejorada del ISP proporcionado por Akamai, al igual que todos los demás suscriptores del ISP.
John hace clic en el enlace al sitio web de phishing. Lamentablemente, dado que el sitio web es completamente nuevo y nadie lo ha identificado aún como malicioso, John podrá visitarlo.
Sin embargo, entre bastidores, nuestro equipo recibe una nueva entrada en el conjunto de datos de NOD para savebank[.]abc. Nuestro mecanismo de detección de phishing la identifica inmediatamente como un error ortográfico de safebank[.]abc.
El dominio se marca como malicioso y se notifica en cascada al ISP. A partir de este momento, todos los suscriptores del ISP están protegidos contra este fraude de phishing. Incluso si hacen clic en el enlace, no podrán visitar el sitio web falso.
John puede haber sido la primera víctima del sitio web de phishing, pero en lo que respecta a las personas protegidas por nuestro equipo, probablemente será la última.
Todos nuestros sistemas y reglas de detección basados en NOD están totalmente automatizados. Esto significa que una vez identificado un nuevo NOD, el tiempo necesario para que lo clasifiquemos como malicioso se mide en minutos, no en horas o días, y sin necesidad de intervención humana.
Todo esto hace que nuestra detección de amenazas basada en NOD sea más rápida que muchos otros mecanismos de detección de amenazas. Permite a nuestro equipo mitigar rápidamente las nuevas amenazas basadas en DNS.
En resumen:
El evento que desencadena la detección de amenazas se sitúa en una fase muy temprana del ciclo de vida de la amenaza.
Los propios sistemas de detección son muy rápidos, ya que están totalmente automatizados.
¿Hasta qué punto somos eficaces?
Para poder hacer una comparación, analicemos algunos NOD resueltos correctamente, pues es poco probable que encontremos nombres de dominio sin resolver en conjuntos de datos externos. Por lo tanto, los números mencionados a continuación son solo para rcode 0. También nos limitamos al periodo comprendido entre el 1 de enero de 2022 y finales de junio de 2022.
En este tiempo, los sistemas de detección de nuestro equipo marcaron el 20,1 % de todos los NOD como maliciosos. Esto equivale a casi 79 millones de nombres de dominio maliciosos únicos durante estos 6 meses, basados únicamente en rcode 0.
Decidimos hacer una evaluación usando como referencia un agregador importante muy conocido de inteligencia sobre amenazas. Nos referiremos a él como "el agregador".
En un extremo, tomamos todos los NOD marcados como maliciosos en el proyecto de análisis heurístico que describimos anteriormente.
En el otro extremo, tomamos todos los nombres de dominio que se habían buscado al menos una vez en la base de datos que antes mencionamos.
Descubrimos que el 91,4 % de los NOD que marcamos como maliciosos no estaban presentes.
También observamos que, de los nombres que pudimos encontrar, más del 99,9 % tenía una "reputación" de 0, lo que significa que todavía no habían sido etiquetados como benignos o maliciosos (solo fueron buscados por alguien).
Conclusión: de todos los nombres de dominio resueltos con éxito que nuestros investigadores marcaron mediante las reglas heurísticas, solo pudimos obtener una opinión del agregador conocido para aproximadamente 1 de cada 11 000 nombres de dominio.
¿Lo hicimos mejor o peor que ellos? Esta es una pregunta que no podemos responder aquí.
Lo que podemos concluir de las cifras anteriores es que el conjunto de datos de NOD proporciona un gran valor complementario, ya que solo hay un pequeño solapamiento entre su resultado y otras importantes fuentes de información sobre amenazas.
¿Cómo somos de rápidos?
Analicemos ahora el tiempo de detección.
Tomamos la misma configuración de datos que en el caso anterior y nos centramos en la pequeña superposición que observamos, que representa los casos en los que tanto el agregador como nuestro equipo marcaron un nombre de dominio como malicioso. No olvide que seguimos examinando solo uno de nuestros proyectos de detección, es decir, el análisis heurístico.
La figura 2 aborda la siguiente pregunta: Cuando ambos sistemas marcan un nombre de dominio como malicioso, ¿cuál de los dos lo hace antes y cuál es la diferencia de tiempo entre ambos?
Descubrimos que en los casos en los que tanto el agregador como nuestro equipo marcaban un nombre de dominio como malicioso, nosotros lo hacíamos normalmente 29,6 días antes que el agregador (es decir, un MTTD casi 30 días más corto).
La figura 2 desglosa aún más estos datos.
El eje y representa el número de nombres de dominio maliciosos.
El eje x representa la diferencia en el número de días entre la identificación de un nombre de dominio como malicioso por nosotros y por el otro sistema. Las barras del lado derecho representan los casos en los que nuestro sistema de detección fue más rápido. Las barras del lado izquierdo representan los casos en los que el agregador fue más rápido.
El enfoque de NOD muestra realmente aquí su excelente MTTD, gracias a que sus desencadenantes de detección se posicionan en una fase temprana del ciclo de vida de una amenaza típica.
Sin embargo, también queda claro que hay muchos casos en los que el enfoque de NOD es más lento que el del agregador. Esto demuestra la necesidad de un enfoque polifacético que aproveche lo mejor de cada sistema.
A partir de nuestro análisis de la figura 2, concluimos, una vez más, que la mejor solución es utilizar ambos enfoques (NOD y agregador) a la vez.
Una observación reciente sobre NOD
Otra ventaja de los datos de NOD es que analizarlos puede proporcionarnos una amplia perspectiva única sobre las actividades maliciosas. Por ejemplo, la figura 3 muestra el número de nombres de dominio maliciosos que marcamos por TLD a lo largo del tiempo.
El comportamiento del TLD ruso .ru es particularmente interesante. Su punto de partida es aproximadamente 10 000 nuevos dominios maliciosos únicos al día. Dos semanas antes de la invasión rusa de Ucrania, comenzamos a observar un aumento constante de la actividad maliciosa hasta casi 40 000 ataques malintencionados al día. Esta actividad se ralentizó un poco antes de producirse un pico masivo de más de 250 000 nombres de dominio .ru maliciosos únicos al día en la segunda mitad de marzo.
Marcar estos dominios para nuestros clientes les permitió mantener a sus suscriptores a salvo de las amenazas potenciales.
Conclusión
La seguridad tiene que ser polifacética y cuanto más sepamos, más seguro podemos hacer el mundo. La detección de amenazas basada en NOD es rápida y muy complementaria a otras fuentes de información sobre amenazas.
Nuestro equipo sigue supervisando NOD y continuará aprendiendo y compartiendo sus conocimientos con la comunidad de seguridad en futuras publicaciones.
En una futura publicación del blog, hablaremos sobre cómo añadimos algoritmos basados en el aprendizaje automático al conjunto de datos de NOD.
Para garantizar que no se pierda ninguno de los trabajos de nuestro equipo de investigación sobre seguridad, nuestro equipo de inteligencia de amenazas o cualquiera de nuestros otros impresionantes equipos, síganos en Twitter para obtener información sobre las próximas investigaciones.