Descoberta de Abuso Sexual Infantil em Maior Base de Dados de IA.
Após os investigadores detectarem materiais relacionados a abuso infantil, a base de dados LAION-5B foi desativada como medida preventiva.
Uma equipe do Stanford Internet Observatory revelou que o conjunto de dados utilizado para treinar ferramentas de IA na geração de imagens contém, no mínimo, 1.008 materiais relacionados a abuso sexual infantil (CSAM).
O estudo divulgado hoje indica que a presença desse conteúdo na “matéria-prima” que alimenta os modelos de inteligência artificial pode resultar no treinamento para gerar novas e ainda mais realistas imagens de CSAM.
O documento destaca que os modelos mais recentes, como o Stable Diffusion, são treinados com bilhões de imagens provenientes da base de dados LAION-5B2.
Esta base, alimentada principalmente por pesquisa não direcionada, inclui uma quantidade significativa de material explícito.
IA e Geração de Conteúdo: Explorando a Conclusão dos Pesquisadores
Os pesquisadores já haviam concluído que os modelos de IA são capazes de gerar esse tipo de conteúdo relacionado a abuso sexual infantil ao combinar termos como “crianças” e “atos explícitos”.
Contudo, com este material específico, a IA consegue compreender o CSAM devido ao treinamento realizado com essas imagens explícitas.
A LAION, responsável pela criação da base de dados, respondeu à investigação, informando à 404 Media que temporariamente removeu a LAION-5B2 como precaução para realizar uma limpeza e garantir sua segurança antes de ser restabelecida.
Essa base de dados alimenta sistemas como o da Google, Stable Diffusion e outros modelos importantes.
A empresa declarou que, antes de republicar a base de dados, implementará filtros para detectar e remover conteúdo ilegal.
O estudo menciona que os administradores da LAION estavam cientes desde 2021 de que seus sistemas poderiam “capturar” esse tipo de conteúdo dentre as bilhões de imagens coletadas da internet.
A Bloomberg havia destacado anteriormente que essa base de dados continha milhões de imagens relacionadas à pornografia, violência, memes racistas, símbolos de ódio, arte com direitos autorais, nudez infantil e trabalhos retirados de sites de empresas privadas.
Ao todo, o LAION-5B possui 5 bilhões de imagens e é utilizado por muitos modelos de IA.