DarkBERT peut effectuer des recherches sur le dark web pour identifier et signaler les menaces potentielles en matière de cybersécurité, notamment les fuites de données et les rançongiciels.
Une IA qui n’a rien à voir avec ChatGPT
Dans un monde où les menaces numériques se cachent dans l'ombre, un groupe de chercheurs dévoués du Korea Advanced Institute of Science and Technology (KAIST) a développé, en collaboration avec l'organisation d'intelligence des données S2W, un outil assez extraordinaire qui porte le nom de DarkBERT. Pour ceux qui se le demandent, il s’agit d’un modèle de langage d'IA générative très spécial, formé exclusivement à partir d'ensembles de données provenant du dark web.
Au lieu de développer un énième modèle à la sauce ChatGPT, le groupe de chercheurs explique que l’objectif était de créer un outil puissant capable d'analyser des ensembles de données complexes et de répondre à des requêtes spécifiques, pour venir en aide aux professionnels de la cybersécurité. Pour optimiser la compréhension du langage du dark web par DarkBERT, l'équipe de recherche a mis en place une vaste mission de collecte – qui a duré 16 jours.
Ainsi, pour que DarkBERT s’adapte au langage utilisé du côté obscur du web, l'équipe de recherche a créé une base de données à grande échelle en parcourant le célèbre réseau informatique Tor.
DarkBERT : un nouvel atout pour la cybersécurité
L’équipe du KAIST a également eu recours à la déduplication, au filtrage des données et au prétraitement afin d'apaiser les inquiétudes éthiques liées au contenu du dark web, qui contient souvent des informations sensibles. Comme nous l’expliquions plus haut, le modèle a été alimenté par deux ensembles de données pendant 16 jours, les données prétraitées étant expurgées d'informations telles que les noms des organisations victimes, des détails sur les fuites de données, des déclarations de menace et des images illégales. Spoiler : la majorité des pages provenant de ces ensembles a été classée dans la catégorie des divertissements pour adultes.
À côté de ça, la compréhension, sans précédent, du langage du dark web par DarkBERT constitue un atout inestimable pour les professionnels de la cybersécurité et les organismes chargés de l'application de la loi. En exploitant ce puissant outil, ils peuvent plonger dans le réseau complexe des cybermenaces et obtenir des informations vitales pour combattre et prévenir les activités malveillantes. Il faut aussi noter que le potentiel de DarkBERT va au-delà des applications traditionnelles de cybersécurité, puisque le modèle est également capable de déchiffrer des messages codés, d'identifier des menaces potentielles et de contribuer à la préservation de la sécurité publique.
Les services répressifs peuvent tirer parti de ses capacités pour devancer les criminels et protéger la société des nouveaux dangers numériques. L'exploitation du potentiel de DarkBERT ne fait que commencer, et les chercheurs du KAIST et de S2W vont continuer d'améliorer cet outil innovant, en veillant à ce qu'il reste une force œuvrant pour le bien, dans les paysages en constante évolution de la cybersécurité et de l'intelligence artificielle.