Adolescentes podem usar a Sora 2 da OpenAI para gerar imagens de atiradores em escolas e violência sexual
As barreiras de segurança do gerador de texto para vídeo da OpenAI evidentemente não são páreo para um usuário determinado
Miles Klee
Sora 2, a versão mais recente do modelo de IA de texto para vídeo da OpenAI, apresentou problemas desde o início. Quando estreou em outubro junto com uma plataforma social semelhante ao TikTok, os usuários geraram e postaram clipes de Bob Esponja cozinhando metanfetamina, deepfakes de Martin Luther King Jr. e John F. Kennedy dizendo coisas que nunca pronunciaram, e um comercial falso de um modelo de brinquedo da ilha privada do falecido criminoso sexual Jeffrey Epstein.
A OpenAI tomou medidas para conter parte desse conteúdo ultrajante, particularmente onde estava vulnerável a reivindicações de direitos autorais e processos judiciais dos espólios de figuras públicas falecidas. Mas os trolls persistiram, descobrindo como criar vídeos do Sora que pareciam mostrar celebridades — e o CEO da OpenAI, Sam Altman — gritando insultos raciais. Agora, uma pesquisa da organização sem fins lucrativos de responsabilidade corporativa Ekō mostrou como é fácil para usuários adolescentes criar vídeos retratando automutilação, violência sexual e tiroteios em escolas, uma preocupação que surge enquanto a OpenAI e outras empresas de IA enfrentam processos de pais que alegam que chatbots incentivaram os suicídios de seus filhos.
Pesquisadores da Ekō registraram várias contas do Sora como pertencentes a meninos e meninas de 13 e 14 anos, e então testaram se conseguiriam induzir o modelo a produzir material inadequado. Eles descobriram que mesmo com a implementação de controles parentais e recursos de detecção de crises nos produtos da OpenAI em setembro, não tiveram problemas para gerar 22 vídeos curtos hiper-realistas que aparentemente violavam as diretrizes da empresa sobre conteúdo proibido. Estes incluíam clipes de jovens cheirando drogas, expressando imagem corporal negativa e em poses sexualizadas.
“Apesar das promessas repetidas da OpenAI, suas chamadas ‘camadas de proteção’ não funcionam — assim como todas as outras empresas de Big Tech que mentiram sobre proteger crianças”, diz Vicky Wyatt, diretora de campanhas da Ekō. “A OpenAI disse aos reguladores que tinha barreiras de proteção implementadas, mas o que encontramos é um sistema construído para engajamento e lucro, não para segurança. Os reguladores devem agir antes que mais danos sejam causados”.
Conteúdo racista também abundava. Um vídeo mostrava um grupo de dança totalmente negro de meninas adolescentes de quatro, cantando “Nós somos vagabundas”. Antes e durante a recente suspensão do Programa Federal de Assistência Nutricional Suplementar (SNAP), propagandistas da extrema direita usaram o Sora e outros modelos de vídeo de IA para gerar retratos ofensivos de pessoas negras descrevendo como estavam se aproveitando dos contribuintes através do sistema, disseminando esses clipes nas redes sociais para perpetuar estereótipos da “rainha do welfare”. Quando compartilhados em outras plataformas, as marcas d’água identificando esses vídeos como gerados por IA são tipicamente escondidas ou obscurecidas, tornando-os mais propensos a serem aceitos como filmagens genuínas.
A OpenAI não respondeu a um pedido de comentário sobre as descobertas da Ekō. Suas políticas do Sora proíbem conteúdo de ódio, promoção de violência e drogas ilegais, críticas baseadas em aparência e desafios perigosos que provavelmente serão imitados por menores, entre outros tipos de vídeos. Os controles parentais do modelo, de acordo com a empresa, permitem que um adulto “ajuste as configurações do Sora para contas de adolescentes conectadas no ChatGPT, incluindo optar por um feed não personalizado, escolher se o adolescente pode enviar e receber mensagens diretas, e a capacidade de controlar se há um feed ininterrupto de conteúdo durante a rolagem”.
Essas medidas, no entanto, são menos que eficazes. “Mesmo sem gerar novo conteúdo, as contas de adolescentes rapidamente receberam recomendações de conteúdo prejudicial seja pelas páginas Para Você ou Mais Recentes, ou navegaram facilmente para vídeos inadequados a partir dessas páginas”, afirma o relatório da Ekō. “Isso incluiu caricaturas antissemitas de judeus ortodoxos brigando por dinheiro, crianças com síndrome de Down ridicularizadas em programas de jogos, e um trailer animado intitulado ‘O Garoto Quieto com uma Arma Falante’“, uma representação no estilo Pixar de um aspirante a atirador escolar e uma arma de fogo antropomorfizada.
“Outros vídeos mostraram estereótipos racistas como um grupo de jovens negros em triciclos exigindo frango frito, tiroteios violentos e vídeos potencialmente simulando estupro e violência sexual”, de acordo com os pesquisadores. Um jovem usuário do Sora pode encontrar um avatar criado por IA de Kurt Cobain do Nirvana, que morreu por suicídio em 1994, segurando uma espingarda e rindo, ou uma garota olhando no espelho e dizendo: “Eu odeio olhar para você. Eu odeio me sentir assim”. E aqueles que optam pelo recurso “cameo” do modelo, que permite que outros insiram sua semelhança em seus próprios vídeos, podem ser assediados por alguém colocando-os em um contexto degradante. (A OpenAI tem uma regra contra “bullying”, embora o Sora hospede contas dedicadas a essa prática exploradora.)
Carissa Véliz, professora associada de filosofia no Instituto de Ética em IA da Universidade de Oxford, diz que a OpenAI até agora falhou em provar que seus modelos apresentam um benefício líquido em vez de dano. “A questão fundamental é se essas ferramentas estão fazendo mais bem do que mal”, ela diz à Rolling Stone. “Que sejam brilhantes e impressionantes não é suficiente. O ônus da prova está na OpenAI para mostrar, primeiro, que estão fazendo tudo que deveria ser feito para tornar suas ferramentas legais e seguras, e segundo, que suas ferramentas estão contribuindo para a sociedade mais do que estão tirando dela. E ambos estão longe de ser claros. Desde violação de direitos autorais, negligência com talento e criadores artísticos, consumo enorme de energia, violações de privacidade, facilitação de notícias falsas e disseminação de desconfiança, e danos a populações vulneráveis, incluindo adolescentes, essas ferramentas são obviamente inseguras”.
Pesquisadores da Ekō descobriram que quando tentaram reproduzir seus vídeos prejudiciais do Sora em uma nova conta de adolescente, a maioria — mas não todos — foram gerados como antes. Eles argumentam que isso demonstra “a inconsistência dos sistemas de moderação” aplicados ao Sora. Em agosto, ao abordar preocupações sobre jovens usuários do ChatGPT enfrentando crises de saúde mental, a OpenAI fez a surpreendente admissão de que os recursos de segurança dos chatbots podem começar a falhar após engajamento prolongado.
“Aprendemos ao longo do tempo que essas proteções podem às vezes ser menos confiáveis em interações longas: à medida que o vai e vem cresce, partes do treinamento de segurança do modelo podem se degradar”, disse a empresa em um post de blog. “Por exemplo, o ChatGPT pode corretamente apontar para uma linha direta de suicídio quando alguém menciona intenção pela primeira vez, mas após muitas mensagens durante um longo período de tempo, pode eventualmente oferecer uma resposta que vai contra nossas proteções”.
Não está claro se continuar ajustando certos prompts repetidamente também poderia fazer o Sora se desviar de seus protocolos de segurança, mas a Ekō encontrou evidências de que alguns usuários podem estar tentando contornar as proteções dessa forma. Há múltiplos vídeos, por exemplo, de pessoas tocando ou puxando uma mulher que está presa a uma parede (ou em um buraco na parede), com remixes do cenário às vezes se tornando mais sexualmente sugestivos.
A OpenAI continua a enfrentar críticas de que apressa novos produtos ao mercado enquanto desprioriza a segurança, com o Sora em particular citado como um risco em nosso clima político carregado, já que deepfakes podem ser usados para promover agendas extremistas e desinformação. No entanto, a empresa continua a liderar a indústria de IA generativa e está atualmente considerando um IPO que poderia avaliá-la em até um trilhão de dólares. Com esse tipo de impulso, é difícil imaginar um escândalo grande o suficiente para desacelerá-los.
+++LEIA MAIS: O TikTok está obcecado por papagaios. Isso alimenta um mercado negro global