Vários fornecedores estão evoluindo componentes centrais dos seus sistemas de IA. A Anthropic descreve o Claude Mythos Preview como um modelo que encontra falhas de segurança muito melhor do que os sistemas anteriores e consegue explorá-las de forma reproduzível em testes. Por isso, ele deve ser usado inicialmente só por um grupo pequeno. A Meta apresenta o Muse Spark, seu primeiro modelo dos novos Superintelligence Labs, e aposta numa disponibilização fechada. Ao mesmo tempo, o GLM-5.1 mostra que modelos abertos estão chegando cada vez mais perto dos sistemas líderes em tarefas de programação.
Claude Mythos Preview e Project Glasswing
A Anthropic descreve o Claude Mythos Preview como um modelo especialmente poderoso na área de cibersegurança. Essas capacidades vêm principalmente de recursos fortes de programação e automação. Dentro do Project Glasswing, o modelo deve ser usado de forma direcionada para defesa, para checar softwares mais rápido em busca de vulnerabilidades e preparar correções. O programa foi apresentado em 7 de abril de 2026 e inclui parceiros de nuvem, hardware, segurança e open source.
O que o modelo mostra na prática
- Muitas novas vulnerabilidades: Segundo a Anthropic, o modelo encontra várias falhas de segurança até então desconhecidas em sistemas operacionais e navegadores.
- Exemplos concretos: Isso inclui, entre outras coisas, falhas bem antigas no OpenBSD e no FFmpeg, além de ataques combinados ao kernel do Linux.
- Alta autonomia: Muitos desses resultados surgem sem direcionamento humano direto.
Benchmarks em comparação com o Claude Opus 4.6
A Anthropic publica várias métricas que mostram o quão forte o modelo é em tarefas de segurança e programação. Os valores servem como referência dentro de cada teste.
| Benchmark | Mythos Preview | Opus 4.6 |
|---|---|---|
| CyberGym (Vulnerability Reproduction) | 83,1% | 66,6% |
| SWE-bench Pro | 77,8% | 53,4% |
| Terminal-Bench 2.0 | 82,0% | 65,4% |
| SWE-bench Multimodal (implementação interna) | 59,0% | 27,1% |
Distribuição, parceiros e preços
O Project Glasswing foi concebido como uma iniciativa conjunta com empresas como AWS, Apple, Cisco, CrowdStrike, Google, a Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks. A Anthropic disponibiliza inicialmente 100 milhões de dólares em créditos de uso. Depois, são citados preços de 25 dólares por 1M de tokens de entrada e 125 dólares por 1M de tokens de saída. Um panorama de parceiros, benchmarks e objetivos está em Project Glasswing.
Meta Muse Spark como modelo fechado
A Meta apresenta o Muse Spark, seu primeiro modelo dos novos Superintelligence Labs. Diferente dos modelos Llama anteriores, desta vez a empresa aposta em um sistema fechado, em vez de pesos disponíveis livremente.
- Acesso: o uso acontece via apps e interfaces web, não por download.
- Modos: há uma variante rápida para tarefas simples e modos mais fortes para pedidos complexos.
- Eficiência: testes externos mostram volumes de saída relativamente baixos com boa performance. Os detalhes estão em Muse Spark na Artificial Analysis.
GLM-5.1 como alternativa aberta para coding
O GLM-5.1 é um modelo aberto com foco em programação e tarefas automatizadas. Por causa da licença aberta, dá para usar localmente, adaptar e integrar em sistemas próprios.
Desempenho em comparação
Comparações de benchmark mostram que o modelo consegue acompanhar sistemas líderes em tarefas de programação.
| SWE-bench Pro | Score |
|---|---|
| GLM-5.1 | 58,4 |
| GPT-5.4 | 57,7 |
| Claude Opus 4.6 | 57,3 |
| Gemini 3.1 Pro | 54,2 |
Para muita gente, além do desempenho, o que pesa mesmo é licença e disponibilidade. O ponto de partida para pesos, documentação e links de avaliação é GLM-5.1 no Hugging Face.
Gemini ganha novas funções para visualização e projetos
O Google está expandindo o Gemini com visualizações interativas que rodam direto na interface de chat. Você pode acioná-las com prompts e, assim, representar conteúdos complexos visualmente. O Google mostra exemplos e detalhes no post sobre simulações e modelos interativos no Gemini.
Além disso, o Google está lançando “Notebooks”. Eles reúnem chats, arquivos e instruções em um espaço de trabalho e são especialmente úteis para projetos mais longos. O funcionamento é descrito no post sobre Notebooks no Gemini.
Novas ferramentas para vídeo e avatares
A Runway integra o Seedance 2.0, um modelo para texto-para-vídeo e outras entradas, como imagens de referência. Os clipes gerados geralmente têm entre cinco e quinze segundos e ficam sujeitos a certas limitações dependendo do uso. Os detalhes estão em Creating with Seedance 2.0.
A HeyGen apresenta o Avatar V, uma nova geração de avatares em vídeo. A partir de gravações curtas, dá para gerar vídeos de fala mais longos e estáveis. Mais sobre isso no post Introducing Avatar V.
Mudanças em agentes, preços e integrações
- A OpenAI complementa a estrutura de preços do ChatGPT com um novo nível com limites de uso mais altos. Detalhes em ChatGPT Pro.
- A Anthropic amplia a oferta com Claude Managed Agents para fluxos automatizados. Visão geral: Managed Agents na documentação do Claude.
- O uso de agentes de terceiros passa a ser mais separado de modelos de assinatura.
- A Plaid expande a integração com a Perplexity para análises financeiras. Mais no post do blog Plaid e Perplexity.
- A Factory AI lança um app desktop para fluxos de trabalho com agentes em paralelo. Detalhes: Factory Desktop App.

