Los principales LLM (grandes modelos de lenguaje) —como GPT-4/5, Bard, LlaMa, Alpaca, Vicuna o Claude— se nutren de miles de millones de textos disponibles en la 'web abierta' (los sitios web a los que cualquiera de nosotros puede acceder con la ayuda de un navegador estándar). Eso es una gran cantidad de material con la que trabajar… pero no es todo el contenido que puede ofrecer Internet.
Y es que ha habido alguien que, a la hora de plantearse entrenar su propio LLM, ha puesto sus ojos en la Dark Web, ese rinconcito oscuro de la Red lleno de foros para cibercriminales y hackers (que no son necesariamente lo mismo), así como de venta de drogas y armas, apuestas, pornografía de dudosa legalidad, etc.
Con todo lo que es posible hacer usando ChatGPT, que ha sido entrenado en el 'lado luminoso' de Internet, uno sólo puede temblar pensando en lo que podría hacerse con su hermano malvado…
…pero que no cunda el pánico: los creadores de este nuevo modelo de lenguaje, llamado DarkBERT, son un equipo de investigadores surcoreanos —de la universidad Korea Advanced Institute of Science & Technology (KAIST) y la compañía S2W— cuyo objetivo principal radica en estudiar a fondo a los cibercriminales.
Un curioso objeto de estudio
Y como éstos no suelen ser muy colaborativos a la hora de ser estudiados, nada mejor que entrenar a una IA para que sea capaz de 'pensar' como ellos.
O, como mínimo, de detectar de manera automatizada webs que alojan los típicos textos que se usan para vender ransomware o datos confidenciales. Y es que, según afirman los investigadores, la extrema diversidad léxica y estructural de las comunicaciones en la Dark Web han supuesto siempre un reto para emprender su estudio.
"Nuestros resultados muestran que el modelo de clasificación basado en DarkBERT supera el de los modelos de lenguaje preentrenados conocidos".
Y es que no es el primer modelo de lenguaje con esta misión: ROBERTa, de Facebook, ya se utilizó en 2019 con los mismos fines de investigación (aunque su enfoque era más amplio que el de DarkBERT). Pero claro, 4 años en esta industria son siglos.
Y por cierto, la similitud de nombres no es casual: ambos se basan en BERT, un modelo de IA lanzado en 2018, con la que Google quiso conseguir que su motor de búsqueda nos entendiera mejor.
Sus creadores tuvieron que generar dos grandes datasets, uno de datos 'en bruto', sin editar, y otro preprocesado, en el que —para proteger la privacidad— se descartaron elementos como los datos personales difundidos en los foros de filtraciones. Además, explican, su rastreador web automatizado (que se conecta a Internet directamente mediante la red Tor),
"elimina cualquier contenido que no sea de texto. Al hacer esto, no nos exponemos a ningún medio sensible que sea potencialmente ilegal".
Además, DarkBERT tiene un claro enfoque en la investigación académica, por lo que el modelo y el dataset se compartirá con otros equipos de investigadores, pero no se lanzarán en ningún caso al público general.
Imágenes | Star Wars / Disney + Vijay Verma
Ver todos los comentarios en https://www.genbeta.com
VER 2 Comentarios