KI Modelle für Coding und Cybersicherheit

Como modelos, ferramentas e agentes de IA estão mudando agora

Vários fornecedores estão evoluindo componentes centrais dos seus sistemas de IA. A Anthropic descreve o Claude Mythos Preview como um modelo que encontra falhas de segurança muito melhor do que os sistemas anteriores e consegue explorá-las de forma reproduzível em testes. Por isso, ele deve ser usado inicialmente só por um grupo pequeno. A Meta apresenta o Muse Spark, seu primeiro modelo dos novos Superintelligence Labs, e aposta numa disponibilização fechada. Ao mesmo tempo, o GLM-5.1 mostra que modelos abertos estão chegando cada vez mais perto dos sistemas líderes em tarefas de programação.

Claude Mythos Preview e Project Glasswing

A Anthropic descreve o Claude Mythos Preview como um modelo especialmente poderoso na área de cibersegurança. Essas capacidades vêm principalmente de recursos fortes de programação e automação. Dentro do Project Glasswing, o modelo deve ser usado de forma direcionada para defesa, para checar softwares mais rápido em busca de vulnerabilidades e preparar correções. O programa foi apresentado em 7 de abril de 2026 e inclui parceiros de nuvem, hardware, segurança e open source.

O que o modelo mostra na prática

  • Muitas novas vulnerabilidades: Segundo a Anthropic, o modelo encontra várias falhas de segurança até então desconhecidas em sistemas operacionais e navegadores.
  • Exemplos concretos: Isso inclui, entre outras coisas, falhas bem antigas no OpenBSD e no FFmpeg, além de ataques combinados ao kernel do Linux.
  • Alta autonomia: Muitos desses resultados surgem sem direcionamento humano direto.

Benchmarks em comparação com o Claude Opus 4.6

A Anthropic publica várias métricas que mostram o quão forte o modelo é em tarefas de segurança e programação. Os valores servem como referência dentro de cada teste.

Benchmark Mythos Preview Opus 4.6
CyberGym (Vulnerability Reproduction) 83,1% 66,6%
SWE-bench Pro 77,8% 53,4%
Terminal-Bench 2.0 82,0% 65,4%
SWE-bench Multimodal (implementação interna) 59,0% 27,1%

Distribuição, parceiros e preços

O Project Glasswing foi concebido como uma iniciativa conjunta com empresas como AWS, Apple, Cisco, CrowdStrike, Google, a Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks. A Anthropic disponibiliza inicialmente 100 milhões de dólares em créditos de uso. Depois, são citados preços de 25 dólares por 1M de tokens de entrada e 125 dólares por 1M de tokens de saída. Um panorama de parceiros, benchmarks e objetivos está em Project Glasswing.

Meta Muse Spark como modelo fechado

A Meta apresenta o Muse Spark, seu primeiro modelo dos novos Superintelligence Labs. Diferente dos modelos Llama anteriores, desta vez a empresa aposta em um sistema fechado, em vez de pesos disponíveis livremente.

  • Acesso: o uso acontece via apps e interfaces web, não por download.
  • Modos: há uma variante rápida para tarefas simples e modos mais fortes para pedidos complexos.
  • Eficiência: testes externos mostram volumes de saída relativamente baixos com boa performance. Os detalhes estão em Muse Spark na Artificial Analysis.

GLM-5.1 como alternativa aberta para coding

O GLM-5.1 é um modelo aberto com foco em programação e tarefas automatizadas. Por causa da licença aberta, dá para usar localmente, adaptar e integrar em sistemas próprios.

Desempenho em comparação

Comparações de benchmark mostram que o modelo consegue acompanhar sistemas líderes em tarefas de programação.

SWE-bench Pro Score
GLM-5.1 58,4
GPT-5.4 57,7
Claude Opus 4.6 57,3
Gemini 3.1 Pro 54,2

Para muita gente, além do desempenho, o que pesa mesmo é licença e disponibilidade. O ponto de partida para pesos, documentação e links de avaliação é GLM-5.1 no Hugging Face.

Gemini ganha novas funções para visualização e projetos

O Google está expandindo o Gemini com visualizações interativas que rodam direto na interface de chat. Você pode acioná-las com prompts e, assim, representar conteúdos complexos visualmente. O Google mostra exemplos e detalhes no post sobre simulações e modelos interativos no Gemini.

Além disso, o Google está lançando “Notebooks”. Eles reúnem chats, arquivos e instruções em um espaço de trabalho e são especialmente úteis para projetos mais longos. O funcionamento é descrito no post sobre Notebooks no Gemini.

Novas ferramentas para vídeo e avatares

A Runway integra o Seedance 2.0, um modelo para texto-para-vídeo e outras entradas, como imagens de referência. Os clipes gerados geralmente têm entre cinco e quinze segundos e ficam sujeitos a certas limitações dependendo do uso. Os detalhes estão em Creating with Seedance 2.0.

A HeyGen apresenta o Avatar V, uma nova geração de avatares em vídeo. A partir de gravações curtas, dá para gerar vídeos de fala mais longos e estáveis. Mais sobre isso no post Introducing Avatar V.

Mudanças em agentes, preços e integrações

  • A OpenAI complementa a estrutura de preços do ChatGPT com um novo nível com limites de uso mais altos. Detalhes em ChatGPT Pro.
  • A Anthropic amplia a oferta com Claude Managed Agents para fluxos automatizados. Visão geral: Managed Agents na documentação do Claude.
  • O uso de agentes de terceiros passa a ser mais separado de modelos de assinatura.
  • A Plaid expande a integração com a Perplexity para análises financeiras. Mais no post do blog Plaid e Perplexity.
  • A Factory AI lança um app desktop para fluxos de trabalho com agentes em paralelo. Detalhes: Factory Desktop App.

Publicado

em

por