KI Modelle für Coding und Cybersicherheit

Cómo están cambiando ahora los modelos, herramientas y agentes de IA

Varios proveedores están evolucionando piezas clave de sus sistemas de IA. Anthropic presenta Claude Mythos Preview como un modelo que encuentra vulnerabilidades de seguridad mucho mejor que los sistemas anteriores y que, en pruebas, es capaz de explotarlas de forma reproducible. Por eso, al principio solo se usará en un círculo reducido. Meta presenta Muse Spark, su primer modelo de los nuevos Superintelligence Labs, y apuesta por una distribución cerrada. Al mismo tiempo, GLM-5.1 demuestra que los modelos abiertos se están acercando cada vez más a los sistemas punteros en tareas de programación.

Claude Mythos Preview y Project Glasswing

Anthropic describe Claude Mythos Preview como un modelo especialmente potente en ciberseguridad. Sus capacidades se deben sobre todo a unas funciones muy sólidas de programación y automatización. En el marco de Project Glasswing, el modelo se usará de forma específicamente defensiva para revisar software en busca de vulnerabilidades con más rapidez y preparar correcciones. El programa se presentó el 7 de abril de 2026 e incluye socios de cloud, hardware, seguridad y open source.

Lo que el modelo demuestra en la práctica

  • Muchas vulnerabilidades nuevas: Según Anthropic, el modelo encuentra numerosas brechas de seguridad hasta ahora desconocidas en sistemas operativos y navegadores.
  • Ejemplos concretos: Entre ellos hay vulnerabilidades muy antiguas en OpenBSD y FFmpeg, así como ataques combinados contra el kernel de Linux.
  • Alta autonomía: Muchos de estos resultados se obtienen sin una dirección humana directa.

Benchmarks frente a Claude Opus 4.6

Anthropic publica varias métricas que muestran lo fuerte que es el modelo en tareas de seguridad y programación. Los valores sirven como referencia dentro de cada prueba.

Benchmark Mythos Preview Opus 4.6
CyberGym (Vulnerability Reproduction) 83,1% 66,6%
SWE-bench Pro 77,8% 53,4%
Terminal-Bench 2.0 82,0% 65,4%
SWE-bench Multimodal (interne Implementierung) 59,0% 27,1%

Distribución, socios y precios

Project Glasswing está planteado como una iniciativa conjunta con empresas como AWS, Apple, Cisco, CrowdStrike, Google, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks. Anthropic aporta inicialmente 100 millones de dólares en créditos de uso. Después, se mencionan precios de 25 dólares por 1M de tokens de entrada y 125 dólares por 1M de tokens de salida. Un resumen de socios, benchmarks y objetivos está disponible en Project Glasswing.

Meta Muse Spark como modelo cerrado

Meta presenta Muse Spark como su primer modelo de los nuevos Superintelligence Labs. A diferencia de los anteriores modelos Llama, esta vez la empresa apuesta por un sistema cerrado en lugar de pesos disponibles libremente.

  • Acceso: El uso se realiza a través de apps e interfaces web, no mediante descargas.
  • Modos: Hay una variante rápida para tareas sencillas y modos más potentes para solicitudes complejas.
  • Eficiencia: Pruebas externas muestran volúmenes de salida relativamente bajos con un buen rendimiento. Los detalles están en Muse Spark en Artificial Analysis.

GLM-5.1 como alternativa abierta para programación

GLM-5.1 es un modelo disponible abiertamente centrado en programación y tareas automatizadas. Gracias a su licencia abierta, puede usarse en local, adaptarse e integrarse en sistemas propios.

Rendimiento en comparación

Las comparativas de benchmarks muestran que el modelo puede competir con sistemas líderes en tareas de programación.

SWE-bench Pro Score
GLM-5.1 58,4
GPT-5.4 57,7
Claude Opus 4.6 57,3
Gemini 3.1 Pro 54,2

Para muchos usuarios, además del rendimiento, lo que más pesa es la licencia y la disponibilidad. El punto de entrada para pesos, documentación y enlaces de evaluación es GLM-5.1 en Hugging Face.

Gemini recibe nuevas funciones para visualización y proyectos

Google amplía Gemini con visualizaciones interactivas que se ejecutan directamente en la interfaz de chat. Los usuarios pueden activarlas con prompts y así representar visualmente contenidos complejos. Google muestra ejemplos y detalles en la publicación sobre simulaciones y modelos interactivos en Gemini.

Además, Google introduce los “Notebooks”. Estos agrupan chats, archivos e instrucciones en un espacio de trabajo y van especialmente bien para proyectos largos. Google explica cómo funcionan en la publicación sobre Notebooks en Gemini.

Nuevas herramientas para vídeo y avatares

Runway integra Seedance 2.0, un modelo para texto a vídeo y otras entradas como imágenes de referencia. Los clips generados suelen durar entre cinco y quince segundos y, según el uso, están sujetos a ciertas limitaciones. Los detalles están en Creating with Seedance 2.0.

HeyGen presenta Avatar V como una nueva generación de avatares de vídeo. A partir de grabaciones cortas se pueden crear vídeos de habla estables y más largos. Más información en la publicación Introducing Avatar V.

Cambios en agentes, precios e integraciones

  • OpenAI amplía la estructura de precios de ChatGPT con un nuevo nivel con límites de uso más altos. Los detalles están en ChatGPT Pro.
  • Anthropic amplía su oferta con Claude Managed Agents para flujos automatizados. Resumen: Managed Agents en los Claude Docs.
  • El uso de agentes de terceros se separa más claramente de los modelos de suscripción.
  • Plaid amplía la integración con Perplexity para análisis financieros. Más detalles en el post Plaid y Perplexity.
  • Factory AI lanza una app de escritorio para flujos de trabajo con agentes en paralelo. Detalles: Factory Desktop App.

Posted

in

by

Tags: