O Mito da Anthropic: IA Armamentando Vulnerabilidades Autonomamente - Uma Nova Era para a Cibersegurança?
**Anthropic** recentemente apresentou o **Claude Mythos Preview**, um modelo de IA capaz de descobrir e explorar vulnerabilidades de software autonomamente. Embora não tenha sido lançado publicamente, este desenvolvimento acendeu um debate na comunidade de cibersegurança sobre o papel em evolução da IA tanto no ataque quanto na defesa.
Duas semanas atrás, a **Anthropic** anunciou que seu novo modelo, **Claude Mythos Preview**, pode encontrar e armar vulnerabilidades de software autonomamente, transformando-as em exploits funcionais sem orientação especializada. Estas eram vulnerabilidades em softwares chave como sistemas operacionais e infraestrutura de internet que milhares de desenvolvedores de software trabalhando nesses sistemas não conseguiram encontrar. Essa capacidade terá implicações de segurança importantes, comprometendo os dispositivos e serviços que usamos todos os dias. Como resultado, a **Anthropic** não está liberando o modelo para o público em geral, mas sim para um número limitado de empresas.
A notícia abalou a comunidade de segurança da internet. Houve poucos detalhes no anúncio da **Anthropic**, irritando muitos observadores. Alguns especulam que a **Anthropic** não tem as GPUs para rodar a coisa toda, e que a cibersegurança foi a desculpa para limitar seu lançamento. Outros argumentam que a **Anthropic** está mantendo sua missão de segurança de IA. Há hype e contra-hype, realidade e marketing. É muita coisa para analisar, mesmo para um especialista.
Vemos o Mythos como um passo real, mas incremental, um em uma longa linha de passos incrementais. Mas mesmo passos incrementais podem ser importantes quando olhamos para o quadro geral.
### Como a IA Está Mudando a Cibersegurança
Escrevemos sobre síndrome de linha de base em mudança, um fenômeno que leva as pessoas — o público e especialistas igualmente — a desconsiderar mudanças massivas de longo prazo que estão ocultas em passos incrementais. Isso aconteceu com a privacidade online, e está acontecendo com a IA. Mesmo que as vulnerabilidades encontradas pelo Mythos pudessem ter sido encontradas usando modelos de IA do mês passado ou do ano passado, elas não poderiam ter sido encontradas por modelos de IA de cinco anos atrás.
O anúncio do Mythos nos lembra que a IA percorreu um longo caminho em apenas alguns anos: a linha de base realmente mudou. Encontrar vulnerabilidades em código-fonte é o tipo de tarefa em que os grandes modelos de linguagem de hoje se destacam. Independentemente de ter acontecido no ano passado ou acontecer no próximo ano, já estava claro há algum tempo que esse tipo de capacidade estava chegando em breve. A questão é como nos adaptamos a isso.
Não acreditamos que uma IA que possa hackear autonomamente criará uma assimetria permanente entre ataque e defesa; é provável que seja mais sutil do que isso. Algumas vulnerabilidades podem ser encontradas, verificadas e corrigidas automaticamente. Algumas vulnerabilidades serão difíceis de encontrar, mas fáceis de verificar e corrigir — considere aplicações web genéricas hospedadas na nuvem construídas sobre pilhas de software padrão, onde as atualizações podem ser implantadas rapidamente. Outras ainda serão fáceis de encontrar (mesmo sem IA poderosa) e relativamente fáceis de verificar, mas mais difíceis ou impossíveis de corrigir, como aparelhos IoT e equipamentos industriais que raramente são atualizados ou não podem ser facilmente modificados.
Existem então sistemas cujas vulnerabilidades serão fáceis de encontrar no código, mas difíceis de verificar na prática. Por exemplo, sistemas distribuídos complexos e plataformas de nuvem podem ser compostos por milhares de serviços interagindo em paralelo, tornando difícil distinguir vulnerabilidades reais de falsos positivos e reproduzi-las de forma confiável.
Portanto, devemos separar o corrigível do incorrigível, e o fácil de verificar do difícil de verificar. Essa taxonomia também nos fornece orientação sobre como proteger tais sistemas em uma era de poderosas ferramentas de IA para encontrar vulnerabilidades.
Sistemas incorrigíveis ou difíceis de verificar devem ser protegidos envolvendo-os em camadas mais restritivas e estritamente controladas. Você quer sua geladeira, termostato ou sistema de controle industrial atrás de um firewall restritivo e constantemente atualizado, não falando livremente com a internet.
Sistemas distribuídos que são fundamentalmente interconectados devem ser rastreáveis e devem seguir o princípio do menor privilégio, onde cada componente tem apenas o acesso que necessita. Estas são ideias de segurança padrão que poderíamos ter sido tentados a descartar na era da IA, mas elas ainda são tão relevantes quanto sempre.
### Repensando Práticas de Segurança de Software
Isso também aumenta a importância das melhores práticas em engenharia de software. Testes automatizados, completos e contínuos sempre foram importantes. Agora podemos levar essa prática um passo adiante e usar agentes de IA defensivos para testar exploits contra uma pilha real, repetidamente, até que os falsos positivos sejam eliminados e as vulnerabilidades e correções reais sejam confirmadas. Esse tipo de VulnOps provavelmente se tornará uma parte padrão do processo de desenvolvimento.
A documentação se torna mais valiosa, pois pode guiar um agente de IA em uma missão de busca de bugs, assim como faz com os desenvolvedores. E seguir práticas padrão e usar ferramentas e bibliotecas padrão permite que a IA e os engenheiros reconheçam padrões de forma mais eficaz, mesmo em um mundo de software individual e efêmero instantâneo — código que pode ser gerado e implantado sob demanda.
Isso favorecerá o ataque ou a defesa? A defesa eventualmente, provavelmente, especialmente em sistemas que são fáceis de corrigir e verificar. Felizmente, isso inclui nossos telefones, navegadores web e principais serviços de internet. Mas os carros de hoje, transformadores elétricos, geladeiras e postes de luz estão conectados à internet. Sistemas bancários e de companhias aéreas legados estão em rede.
Nem todos esses serão corrigidos tão rápido quanto o necessário, e podemos ver alguns anos de ataques constantes até chegarmos a um novo normal: onde a verificação é primordial e o software é corrigido continuamente.
*Este ensaio foi escrito com Barath Raghavan e originalmente apareceu em [IEEE Spectrum](https://spectrum.ieee.org/ai-cybersecurity-mythos).*