Así funcionan las nuevas arañas que pretenden indexar la Deep Web

2 febrero 2017, 16:28

Sergio Agudo

Es de dominio público que el contenido de una web se lista en los motores de búsqueda cuando puede ser indexado por ellos. Para esto se utilizan unos programas conocidos como arañas web, un automatismo que viaja por la red para indexar contenido, entre otras funciones. Tradicionalmente, estos programas sólo han tenido un espacio funcional dentro de la web superficial, la que vemos con cualquier navegador.

Otro tema de dominio público es que también hay una parte de Internet que no podemos ver, lo que se conoce como Deep Web. Estas páginas también pueden ser indexadas, aunque las arañas web "ocultas" usadas hasta ahora no eran muy eficientes. Unos investigadores del Instituto Tecnológico de Rochester (RIT) han publicado un estudio según el cual aseguran que se puede indexar la Deep Web más eficazmente usando unas nuevas arañas ocultas desarrolladas por ellos.

Antes de continuar, convendría aclarar un par de conceptos que ya mencionamos en nuestro artículo sobre el kit de supervivencia de la Deep Web. Nos referimos a las diferencias entre Deep Web y Darknet. El primer término hace referencia a todos los servicios web que no podemos ver, mientras que el segundo describe de forma general la parte más oscura de los sitios web ocultos.

Esto significa que para entrar en la Deep Web no es necesario usar Tor, aunque sí sea necesario para entrar en webs _.onion_. Basta con que nos encontremos con una web con un paywall, o que requiera de registro para acceder a sus contenidos, para que los buscadores no puedan indexar esas páginas. ¿Por qué? Porque las arañas web convencionales no están programadas para buscar esos sitios web que están "protegidos".

Lo que los investigadores proponen

El proyecto incluido en el documento se centra en indexar contenido web a través de rellenar un campo de texto en formularios para disminuir la complejidad de la tarea. Las palabras clave que se usaron para rellenarlos se obtuvieron de webs similares a WordStream, que se dedican a analizar palabras clave, que después se usan en tareas relacionadas con la optimización de motores de búsqueda.

Las arañas web de los investigadores se diseñaron para comprobar el archivo _robots.txt_ de las webs antes de indexar su contenido. Usando una petición get/post se enviaban los formularios, pero como muchos sitios web usan un sistema de claves API para gestionar dichas peticiones, usaron Selenium Webdriver para superar este problema. Esta utilidad se utiliza para realizar comprobaciones de errores en navegadores web, a grandes rasgos. Esto se debe a que el método get usa la URL para enviar los datos, mientras que el método post los envía de forma "oculta".

Los resultados obtenidos de esta nueva técnica de indexado de la Deep Web son interesantes. Los autores del documento probaron sus arañas web con éxito con tres webs orientadas a temas de salud. Aplicando métodos de selección de palabras clave para clasificar los resultados, las usadas en este proyecto se dividieron en tres categorías:

Baja cobertura
Media cobertura
Alta cobertura

La clasificación se realizaba atendiendo de los resultados de búsqueda que devolvía cada palabra clave. La eficiencia de los envíos realizados por la araña web oculta llegó hasta el 63,6%, lo que es relativamente prometedor según los investigadores.

Los investigadores declararon que usando un método de clasificación de páginas web basado en URLs como CALA con su nueva araña web oculta, aún se pueden lograr más resultados prometedores. Una herramienta como esta que acabamos de nombrar, según los responsables del proyecto, aumentará el rendimiento de las arañas generando patrones más precisos para la extracción de enlaces. Es hacia aquí hacia donde dirigen actualmente sus esfuerzos.

Así eran las arañas web ocultas hasta ahora

Como decíamos al principio del artículo, para entrar en servicios ocultos no es necesario instalar Tor y buscar direcciones _.onion_. La Deep Web es, como ya establecimos, todo lo que no podemos ver de Internet. Esto incluye también las páginas que requieren interacción del usuario para mostrar sus contenidos, como por ejemplo las que requieren un registro.

Por otra parte, las arañas web ocultas pueden indexarlos sin problemas, da igual que requieran de registro o de superar un paywall. Los programas de este tipo que se estaban usando hasta ahora se pueden clasificar usando dos métodos según DeepDotWeb: atendiendo a la forma en que recorren las webs, y basándose en el método de elección de palabras clave.

Clasificación atendiendo a cómo recorren las webs

Encontramos dos tipos de arañas web ocultas:

Orientadas a la amplitud: fundamentalmente se dedican a viajar a través de un amplio rango de recursos URL, en lugar de recorrer constantemente una cantidad limitada de direcciones web.
Orientadas a la profundidad: su función es la de extraer la mayor cantidad posible de datos desde una cantidad limitada de URLs.

Clasificación atendiendo al método de elección de palabras clave

Aquí tenemos tres tipos de arañas web ocultas:

Selección aleatoria de palabras: estos programas se apoyan en usar un diccionario aleatorio para obtener las palabras necesarias para rellenar formularios. En algunos casos, el diccionario que se usa es específico para un dominio.
Selección de una frecuencia genérica: este método depende de la distribución genérica de la frecuencia de palabras clave usadas en el rellenado de formularios. Esto ayuda a la hora de lograr más resultados coincidentes, y reduce el tiempo que se pasa rellenando el formulario.
Métodos adaptativos: las arañas web que se apoyan en este método analizan los datos derivados de peticiones y palabras clave que se aparecen en listas. A través de estas listas de palabras, se pueden crear peticiones que logren el máximo número posible de resultados.

Rochester Institute Of Technology | Benchmarking Current Deep Web Crawlers
En Genbeta | 47 páginas .onion para visitar el lado amable de la Deep Web

Ver todos los comentarios en https://www.genbeta.com

VER 0 Comentario

Portada de Genbeta