Este artículo es un resumen de nuestra ponencia Técnicas avanzadas de descubrimiento y análisis de la Dark Net – XII JORNADAS STIC CCN-CERT , el ponente en cuestión es uno de nuestro ingenieros de Alphasec , quien es Don Javier Junqueras, quién pudo exponer los resultados de descubrimiento de dominios por parte del trabajo de investigación de la Universidad de Alcalá de Henares sobre dominios no indexados a través de la herramienta web de Thor.

En 2019, hay más niveles ocultos en Internet.

Qué es la DARK Net y cómo acceder a ella. ¿Fácil o difícil?

Ya todos sabemos que Internet es la red de redes, y merece la pena recordar que Internet tiene una parte visible y otra oculta al igual que el símil de los icebergs en el océano Atlántico, sin embargo continuando que esta aproximación de una idea general sobre lo “visible” e “invisible” en Internet, la parte visible es la mayoría de los contenidos y partes a las que es accesible fácilmente a través de los servicios de motores de búsqueda como Google y Bing o de un navegador con solo conocer la URL de destino.

Sin embargo la parte “invisible” o obscura de Internet son todas aquellas que no es tan fácilmente accesible y que requieren dar pasos adicionales como lo podría ser el correo electrónico, ya que no esta a la vista de todo el público normal.

Independientemente del protocolo de acceso que se utiliza y que no este indexado como un servidor de correo que se acceda por pop e imap, un servidor de Digital Ocean. Si queremos acceder a todo aquello en Internet que esta oculto se tiene que acceder a través de protocolos especiales atando a pasos adicionales.

Los principales métodos para poder acceder fácilmente a la DARK NET, hay muchas DARK NET, ya que cualquiera puede desarrollar su propio protocolo.

Los cuatro (4) los principales protocolos para acceder a la DARK NET

1) .onion : Sus principales características son el enrutado cebolla, dos modos In-Proxy y Out-proxy el que permite conectarse de forma anónima a Internet, se consigue el anonimato y es asequible para los novatos con tan

solo descargarse su navegador oficial en su página de Internet https://www.torproject.org.

2) .i2p : Es otro protocolo con poco más cliente, te descargas su cliente oficial y trae un enrutado tipo ajo, con la salvedad que es una mezcla de “onion” con múltiples Sub-paquetes es decir divide estos paquetes en “dientes de ajo”,

el modo es In-PROXY, esta basado en agenda de resolución de nombres que implica gestión de la reputación

3) .ZERONET .bit: Es un sistema p2p y se muestra tu dirección IP con lo cuál ya no es tan anónimo pero se puede solucionar integrando con el navegador Sor para subir contenido de forma anónima,

tiene resolución de nombre basada en Namecoin , carga el contenido de forma dinámica.

4) freenet: [hash] : Es otro sistema p2p aunque su enrutamiento no permite que los paquetes de información lleguen directamente, el enrutamiento es similar al I2P, es incensurable porque muchos usuarios tienen la posibilidad de

descargar el contenidos al mismo tiempo todo el que enruta un paquete que por el hecho mismo de estar direccionando (enrutando) ya es un servidor en sí mismo, al formar parte de la red compartes contenido.

Tenemos que entender que todas las redes que están ocultas funcionan como un “eco-sistema” , incluyendo servicios como como pastebin, reedit, etc, sin entender esta filosofía de redes es imposible

comprender a Tor en profundidad, tanto es así que el 5 % de tráfico en TOR viene de I2P, y el 3% del tráfico de I2P proviene de TOR

TOR COMO ELEMENTO VERTEBRADOR

Tor nació como idea en el año 1999 y fue desarrollado para la Marina de los EE.UU, el programa se liberó en 2006 y hoy lo usan 2,5 millones de internautas al día.

Tor es mantenido por una organización llamada de “TOR-PROJECT” quienes cuentan con financiación para mantener este proyecto en la actualidad, y se dedican a desarrollar herramientas para mantener el anonimato de usuarios. Se gestionan multitud de proyectos adicionales como como son: STEM, TAILS, y el mismo Tor Browser, su tecnología del enrutado de cebolla a dado pie para la creación de otras tecnologías.

Sin duda uno de los principales elementos diferenciadores de Tor es su modo “out-proxy”, aunque el objetivo el proyecto Parche era conocer aspectos de la DARK NET, en el modo “in-proxy”

EL RETO QUE NOS PLANTEO EL INCIBE:

Debido a la singularidad de como esta construida la Internet es que hay dominios que si nos están publicados es imposible de encontrarlos o verlos, no se puede dar la dirección del servicio oculto por

las razones de como esta configurado Tor actualmente, el servicio oculto se conecta a través de varios equipos se sube a una DHT una tabla distribuida un descriptor, una vez se cuenta con el descriptor

la dirección de tres nodos y el cifrado, el cliente conoce el .onion y descarga el descriptor, y le pregunta al DHT ¿Tienes datos sobre este nodo? , responde que si, y se pone en contacto con los 3 nodos y se

consensuar un punto de reunión, donde la conexión queda emparejada, todos los caminos que tienen una cebolla van con una conexión tarificada.

ELEMENTOS INTERESANTES A DESTACAR

HSDir: Que es el directorio o en el que se almacenan los descriptores de los servicios ocultos

Guard node: El primer nodo que se conecta ala máquina en un enrutamiento a través de Tor.

El sistema a través de unos indicadores de bandera se va indicando lo que ocurre con los paquetes que son los siguientes: Fast, HSDir, Running, Stable, V2Dir, y Valid. , y en función de si quieres permitir salida a Internet, concibió la idea de crear el proyecto parche.

EL PROYECTO PARCHE

Consistió básicamente en la creación de un Crawler: Es decir se trató de una exploración que se realizo a través de 3 instancias diferentes que se han creado para subirlas a Internet de tres formas diferentes

con Tor, I2P, y ZeroNet respectivamente, con la premisa de que tenia que cumplir los siguientes requisitos:

Primero: ser distribuible con pocos recursos.

Segundo: ser reutilizable.

Tercero: Ser alimentable.

Todo ello se forma automatiza y que nos ayudará a descubrir lo que había en cada una de las web que estábamos visitando. Es decir estábamos creando un protocolo de descubrimiento, los retos fueron centrarse en Tor y no “salir” de Internet, y además poder tener carga dinámica del contenido.

Empleando tres recursos diferentes logramos configurarlo de modo tal que pudieran comunicar entre ellos de forma ininterrumpida o continua.

Fuentes abiertas: Se utilizaron 3 recursos ya existentes que son: Un servicio de contenido indexado en Tor llamado Ahmia, y otro servicio llamado HUNCHLY,

Hunchly es la herramienta que crea automáticamente un registro de auditoría transparente para las investigaciones en línea.

Pastebin que ofrece la posibilidad de subir pequeños textos, generalmente ejemplos de código fuente, para que estén visibles de una manera sencilla y fácil para que el usuario coloque su código en línea para que lo vea cualquiera, y hacerlo fácilmente accesible de leer por cualquiera que lo necesite.

PATRONES

Considerando que muchos dominios tienen patrones se nos ocurrió una manera de lidiar con esta situación, los dominios .onion se generan como un hash de la clave RSA del Hidden service ,

con la que luego se cifra y se cojan los 16 primeros caracteres en base 32, y es lo que genera la impresionante cifra de dominios que es:

32^16 = 1.20892581961 x 10E24 , con la cuál la fuerza bruta no es viable para recorrer toda esta cantidad de dominios con los recursos disponibles.

Pensando en lo más sensato que se podía hacer con pocos recursos, lo más adecuado es generar dominios que posean un patrón, y sabemos

que es posible generar un .onion a nuestro gusto por ejemplo en: https://github.com/lachesis/scallion.

También hay webs que fuerzan patrones y podemos buscar en base a estos por ejemplo:

drmarketcie6vdos.onion

epicmarketbbhhmm.onion.

xmarket334dtd4la.onion

Donde lo más repetitivo era la palabra market para la venta de todo tipo de artículos ilegales, sin embargo encontramos patrones con otras palabras que

obtuvimos los siguientes resultados:

chan: 1.152.921.504.606.846.976 dominios

drugs: 36.28.797.018.963.968 dominios

weapons: 35.184.372.088.832 dominios.

Y también buscamos patrones que tuviesen una alto porcentaje de frecuencia en su repetición de los resultados encontrados, es decir mediante análisis de los términos más utilizados en los dominios conocidos y generación de listas.

NACIMIENTO DE CHALOTA

Al no tener que generar la Clave pública no hay necesidad de fuerza bruta.

Como nuestro algoritmo genera un listado de n caracteres de base 32, pues podíamos generar este listado en muy breve tiempo, cuando quimos comprobar algunos de estos dominios independientemente de lo larga que fuera la lista que pudimos generar, las webs de Tor descargan muy lentamente, nos surgió la necesidad de poder comprobar eficientemente si un un dominio .onion esta registrado, y tuvimos que hacer una herramienta que comprobase esto de forma más rápida.

La solución estaba en el uso de sockets y HSFETCH y la bautizamos “CHALOTA” que se conecta a protocolo de control de Tor y pregunta como preguntaría el cliente antes de conectarse, que es el paso previo a saber quién es el propietario de esa página web.

LOS TIEMPOS DE CONEXIÓN

Con una conexión HTTP, la conexión siempre fue superior a 4 segundos y proporciona muchos falsos negativos, ya que es probable que no exista una página web, simplemente un servicio SSH, IRC, o FTP.

ULTIMO RETO: LEVANTAR UN NODO DE TOR.

Hacer esto no es ilegal por los momentos, consideramos que es posible levantar un nodo intermedio modificado de Tor para almacenar descriptores, y evades la responsabilidad de salir ilegalmente Internet y se puede ir consiguiendo otras funcionalidad. Transcurridas 96 horas del reto obtuvimos la bandera HSDir, una vez conseguido lo anterior pudimos:

Primero que nada , desde el nodo obtenemos las claves RSA. Con el algoritmo, generamos el nombre del dominio.

Emplear la herramienta de “Chalota” si existe el dominio realmente, o si lo había sido visualizado por nosotros. Mediante el módulo de comprobación, podemos verificar rápidamente que es correcto.

Segundo, pudimos extraer la clave pública del descriptor, un ejemplo de esta es la siguiente:

——– BEGIN RSA PUBLIC KEY——————-

MIGJAoGBAPLSSLvEPG&kkqjew´lrjvhiuh3495vewlknfrjknwvi2`3245uvm wpqiehjrpv

qewrjwr

e66arjkskjvñwe rjtvjwejtvòwjeofjvkñlñlkdjfvkjrgjtñjffgksjrtjwrejtwjkñltvjrtñjwñrtjvwñrk

Pyma

gnNGRRGUUETTSOTKWPREtiryjioewwnrgya7456903924gnqw4wi5092i50jwpoerijtwr

——–END RSA PUBLIC KEY—————-

haciendo el Hash obtenemos el dominio: 7gheeonpk6bqfkdi. onion

Tor tiene mecanismos para detectar y evitar la exfiltración de dominios, y hay que desarrollar técnicas para evitar baneos, para evitar las trampas ocultas de Tor correlacionamos datos con datos de otros HSdir y como salio la versión 3 en la mitad del reto, no pudimos seguir avanzando. La solución deja de ser viable en la versión 3 de Tor por la forma en que de distribuye la versión, y por lo tanto habrá que investigar nuevos métodos para su solución. El Nodo Guard, es el primer guard al que se conecta un cliente, analizando un poco la traza de las conexiones que se hacían a nuestro nodo nos dimos cuenta de que había determinadas IPs

que una vez habían pasado por el EXONERATOR para analizar si hay o no hay nodo y algunos pueden ser públicos, descubrimos web con servicios ocultos de Tor que dejan expuestos ciertas cosas,

Se llega una conclusión: El hecho de que muchas de las direcciones IP encontradas tenían servicios web y no están en exonerator, se puede inferir que sean servicios ocultos que quizás se han olvidado cerrar el puerto web, y se están exponiendo públicamente afuera de forma fuera de lo normal, y proponemos que sea otra vía de investigación.

ESTADÍSTICAS DE DATOS Y ANÁLISIS:

A la hora de analizar los datos, desarrollamos una librería que es la siguiente: https://gitlab.com/junquera/stalker, en base a expresiones regulares se pudo generar un listado cuantioso de estas expresiones obtenido lo siguiente:

Canales de Telegram, Whatsapp, Discord, direcciones de email ,direcciones i2p, zeronet, tor y realizando un inventario de lo encontrado con el stalker tenemos lo siguiente:

  • BTC Wallet: 143.299
  • Email: 74.251
  • tor url: 25.645396 (11.657 dominios)
  • isp url: 2.208.758 (2.041 dominios)
  • Twitter_username: 3.176
  • Whatsapp: 7
  • Canales de Telegram: 254 (En lugar muy especial dónde se comparte contenido con protocolo propio)
  • Teléfonos: 11.207 ( En España alrededor de 376)
  • dominions .onion 139.912 (No todos alojan Webs, no siempre activos 24/7, Chalota nos permite comprobar los servicios rápidamente)

El idioma de los contenidos encontrados fue:

78.8% en inglés, francés 1.3%, Ruso 4 % , Alemán 1.2% , Otros sin definir 5.5 %

CONCLUSIONES

1) Utilizando el dataset de Tuenti news Group, se logró enriquecimiento del mismo con el hallazgo de los datos recopilados las principales categorías encontradas son: Hitman, Markets, criptomonedas, pornografía.

2)El problema de la versión 3 de Tor es el cambio de RSA a criptografía de curvas elípticas , con la curva ed5519, esto implica que se generen nuevos dominios de 56 caracteres con base 32, lo que daba al traste nuestro algoritmos de comprobación de patrones. Y nuevo formato de descriptores como se puede observan el la figura siguiente.

3) A día de hoy en 2019, con la versión 3 no vamos a poder obtener el dominio, porque se consulta una clave derivada mediante una técnica criptográfica conocida como “Blind signature”

4) Aparece un nuevo formato de descriptores, que emplea el nuevo protocolo de firma ciega y que se usa con curvas elípticas, y se deriva una clave de la clave original y sin conocer como se ha derivado, no se puede revertir y al final el cliente va a tener la clave pública.

5) La versión 3 de Tor sigue en construcción y convive con la versión anterior y sufre constantes modificaciones.

6) Para hacer usables los nuevos dominios de 56 caracteres se esta planteando utilizar otros sistemas (estilo DNS o alias de dominio) lo que creemos que aumentará la usabilidad en detrimento de la seguridad.

7) Probablemente no tiene sentido indexar todo el contenido de Tor, ya que muchos sitios son delictivos.

8) Es más práctico escuchar las redes y conocer el entorno, he ir incorporando nuevas redes y métodos de investigación para el descubrimiento de nuevos delitos en la DARK NET.

9) Detección de nuevos delitos en la red Freenet, con gran cantidad de contenido de pedófilia.

10) Merece la pena desarrollar nuevos sistemas de automatizar la autenticación, ya que no deja ser una deepweb dentro de la DARK NET y existen multitud de foros que requieren autenticación y se requieren credenciales seguras.