KI Modelle für Coding und Cybersicherheit

Comment les modèles, outils et agents IA évoluent en ce moment

Plusieurs acteurs font évoluer des briques centrales de leurs systèmes d’IA. Anthropic présente avec Claude Mythos Preview un modèle qui repère nettement mieux que les systèmes précédents des failles de sécurité et peut, lors de tests, les exploiter de manière reproductible. C’est pour ça qu’il ne doit d’abord être utilisé que dans un cercle restreint. Meta dévoile Muse Spark, son premier modèle issu des nouveaux Superintelligence Labs, avec une mise à disposition fermée. En parallèle, GLM-5.1 montre que les modèles ouverts se rapprochent de plus en plus des systèmes de référence sur les tâches de programmation.

Claude Mythos Preview et Project Glasswing

Anthropic décrit Claude Mythos Preview comme un modèle particulièrement performant en cybersécurité. Ces capacités viennent surtout de solides fonctions de programmation et d’automatisation. Dans le cadre de Project Glasswing, le modèle doit être utilisé de manière ciblée en défense, pour auditer plus vite les logiciels à la recherche de vulnérabilités et préparer des correctifs. Le programme a été présenté le 7 avril 2026 et réunit des partenaires du cloud, du matériel, de la sécurité et de l’open source.

Ce que le modèle montre en pratique

  • Beaucoup de nouvelles failles : selon Anthropic, le modèle découvre de nombreuses vulnérabilités jusque-là inconnues dans des systèmes d’exploitation et des navigateurs.
  • Exemples concrets : on y trouve notamment de très anciennes failles dans OpenBSD et FFmpeg, ainsi que des attaques combinées visant le noyau Linux.
  • Forte autonomie : une grande partie de ces résultats apparaît sans pilotage humain direct.

Benchmarks face à Claude Opus 4.6

Anthropic publie plusieurs indicateurs qui montrent à quel point le modèle est solide sur des tâches de sécurité et de programmation. Ces scores servent surtout de repères dans le cadre de chaque test.

Benchmark Mythos Preview Opus 4.6
CyberGym (Vulnerability Reproduction) 83,1% 66,6%
SWE-bench Pro 77,8% 53,4%
Terminal-Bench 2.0 82,0% 65,4%
SWE-bench Multimodal (interne Implementierung) 59,0% 27,1%

Déploiement, partenaires et tarifs

Project Glasswing est pensé comme une initiative conjointe avec des entreprises comme AWS, Apple, Cisco, CrowdStrike, Google, la Linux Foundation, Microsoft, NVIDIA et Palo Alto Networks. Anthropic met d’abord à disposition 100 millions de dollars de crédits d’utilisation. Ensuite, des tarifs de 25 dollars US par 1M de tokens en entrée et de 125 dollars US par 1M de tokens en sortie sont indiqués. Un aperçu des partenaires, benchmarks et objectifs est disponible sur Project Glasswing.

Meta Muse Spark comme modèle fermé

Meta présente Muse Spark, son premier modèle issu des nouveaux Superintelligence Labs. Contrairement aux précédents modèles Llama, l’entreprise mise cette fois sur un système fermé plutôt que sur des poids librement disponibles.

  • Accès : l’utilisation passe par des apps et des interfaces web, pas par des téléchargements.
  • Modes : il existe une variante rapide pour les tâches simples et des modes plus puissants pour des demandes complexes.
  • Efficacité : des tests externes montrent des volumes de sortie relativement faibles pour de bonnes performances. Les détails sont disponibles sur Muse Spark chez Artificial Analysis.

GLM-5.1 comme alternative ouverte pour le code

GLM-5.1 est un modèle disponible en open source, centré sur la programmation et les tâches automatisées. Grâce à sa licence ouverte, tu peux l’utiliser en local, l’adapter et l’intégrer à tes propres systèmes.

Performances en comparaison

Des comparaisons de benchmarks montrent que le modèle peut tenir tête aux systèmes de pointe sur des tâches de programmation.

SWE-bench Pro Score
GLM-5.1 58,4
GPT-5.4 57,7
Claude Opus 4.6 57,3
Gemini 3.1 Pro 54,2

Pour beaucoup d’utilisateurs, au-delà des performances, ce sont surtout la licence et la disponibilité qui comptent. Le point d’entrée pour les poids, la documentation et les liens d’évaluation se trouve sur GLM-5.1 sur Hugging Face.

Gemini gagne de nouvelles fonctions pour la visualisation et les projets

Google enrichit Gemini avec des visualisations interactives qui tournent directement dans l’interface de chat. Les utilisateurs peuvent les déclencher via des prompts adaptés et ainsi représenter visuellement des contenus complexes. Google montre des exemples et des détails dans l’article sur les simulations et modèles interactifs dans Gemini.

En plus, Google introduit les « Notebooks ». Ils regroupent chats, fichiers et instructions dans un espace de travail, et sont particulièrement pratiques pour les projets au long cours. Google explique le fonctionnement dans l’article sur les Notebooks dans Gemini.

Nouveaux outils pour la vidéo et les avatars

Runway intègre Seedance 2.0, un modèle de texte-vers-vidéo et d’autres entrées comme des images de référence. Les clips générés durent généralement entre cinq et quinze secondes et sont soumis à certaines restrictions selon l’usage. Les détails se trouvent dans Creating with Seedance 2.0.

HeyGen présente Avatar V, une nouvelle génération d’avatars vidéo. À partir de courtes prises, on peut produire des vidéos de prise de parole plus longues et stables. Plus d’infos dans l’article Introducing Avatar V.

Changements côté agents, tarifs et intégrations

  • OpenAI complète la grille tarifaire de ChatGPT avec un nouveau palier offrant des limites d’utilisation plus élevées. Détails : ChatGPT Pro.
  • Anthropic étend son offre avec Claude Managed Agents pour des workflows automatisés. Aperçu : Managed Agents dans les docs Claude.
  • L’utilisation d’agents tiers est davantage dissociée des modèles d’abonnement.
  • Plaid renforce l’intégration avec Perplexity pour les analyses financières. Plus d’infos dans le billet de blog Plaid et Perplexity.
  • Factory AI lance une application desktop pour des workflows multi-agents en parallèle. Détails : Factory Desktop App.

Posted

in

by