Come stanno cambiando in questo momento modelli, tool e agenti di IA

Diversi fornitori stanno aggiornando componenti chiave dei loro sistemi di IA. Anthropic presenta Claude Mythos Preview come un modello che individua vulnerabilità in modo nettamente migliore rispetto ai sistemi precedenti e, nei test, riesce anche a sfruttarle in maniera riproducibile. Per questo, all’inizio verrà utilizzato solo in una cerchia ristretta. Meta, invece, introduce Muse Spark, il primo modello dei nuovi Superintelligence Labs, puntando su una distribuzione chiusa. Nel frattempo GLM-5.1 dimostra che i modelli open disponibili al pubblico, soprattutto nel coding, si stanno avvicinando sempre di più ai sistemi di punta.

Claude Mythos Preview e Project Glasswing

Anthropic descrive Claude Mythos Preview come un modello particolarmente potente nel campo della cybersecurity. Queste capacità derivano soprattutto da solide funzioni di programmazione e automazione. Nell’ambito di Project Glasswing, il modello dovrebbe essere usato in modo mirato per la difesa, per controllare più rapidamente i software alla ricerca di vulnerabilità e preparare le correzioni. Il programma è stato presentato il 7 aprile 2026 e include partner di cloud, hardware, sicurezza e open-source.

Cosa mostra il modello nella pratica

Tante nuove vulnerabilità: secondo Anthropic, il modello trova numerose falle di sicurezza finora sconosciute in sistemi operativi e browser.
Esempi concreti: tra questi ci sono vulnerabilità molto datate in OpenBSD e FFmpeg, oltre ad attacchi combinati contro il kernel Linux.
Alta autonomia: molti di questi risultati emergono senza una guida umana diretta.

Benchmark a confronto con Claude Opus 4.6

Anthropic pubblica diverse metriche che mostrano quanto il modello sia forte nelle attività di sicurezza e programmazione. I valori servono come riferimento all’interno dei rispettivi test.

Benchmark	Mythos Preview	Opus 4.6
CyberGym (Vulnerability Reproduction)	83,1%	66,6%
SWE-bench Pro	77,8%	53,4%
Terminal-Bench 2.0	82,0%	65,4%
SWE-bench Multimodal (implementazione interna)	59,0%	27,1%

Distribuzione, partner e prezzi

Project Glasswing è pensato come un’iniziativa congiunta con aziende come AWS, Apple, Cisco, CrowdStrike, Google, la Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks. Anthropic mette inizialmente a disposizione 100 milioni di dollari di credito d’uso. Successivamente vengono indicati prezzi di 25 dollari per 1M di token in input e 125 dollari per 1M di token in output. Una panoramica di partner, benchmark e obiettivi è disponibile su Project Glasswing.

Meta Muse Spark come modello chiuso

Meta presenta Muse Spark, il primo modello dei nuovi Superintelligence Labs. A differenza dei precedenti modelli Llama, questa volta l’azienda punta su un sistema chiuso invece che su pesi liberamente disponibili.

Accesso: l’utilizzo avviene tramite app e interfacce web, non tramite download.
Modalità: c’è una variante veloce per compiti semplici e modalità più potenti per richieste complesse.
Efficienza: test esterni mostrano quantità di output relativamente basse a fronte di buone prestazioni. I dettagli sono disponibili su Muse Spark su Artificial Analysis.

GLM-5.1 come alternativa open per il coding

GLM-5.1 è un modello open disponibile pubblicamente, con focus su programmazione e task automatizzati. Grazie alla licenza aperta può essere usato in locale, personalizzato e integrato nei propri sistemi.

Prestazioni a confronto

I confronti sui benchmark mostrano che, nelle attività di programmazione, il modello riesce a tenere testa ai sistemi leader.

SWE-bench Pro	Score
GLM-5.1	58,4
GPT-5.4	57,7
Claude Opus 4.6	57,3
Gemini 3.1 Pro	54,2

Per molti utenti, oltre alle prestazioni, contano soprattutto licenza e disponibilità. Il punto di partenza per pesi, documentazione e link di valutazione è GLM-5.1 su Hugging Face.

Gemini ottiene nuove funzioni per visualizzazioni e progetti

Google arricchisce Gemini con visualizzazioni interattive che girano direttamente nell’interfaccia chat. Puoi avviarle con prompt specifici e rappresentare visivamente contenuti complessi. Esempi e dettagli sono nel post di Google su simulazioni e modelli interattivi in Gemini.

Inoltre Google introduce i “Notebooks”. Questi raggruppano chat, file e istruzioni in un unico spazio di lavoro e sono particolarmente adatti a progetti più lunghi. Il funzionamento è descritto nel post su Notebooks in Gemini.

Nuovi tool per video e avatar

Runway integra Seedance 2.0, un modello per text-to-video e altri input come immagini di riferimento. I clip generati durano di solito tra cinque e quindici secondi e, a seconda dell’uso, sono soggetti a determinate limitazioni. I dettagli sono in Creating with Seedance 2.0.

HeyGen presenta Avatar V, una nuova generazione di avatar video. Da brevi riprese puoi ottenere video parlati stabili e più lunghi. Maggiori informazioni nel post Introducing Avatar V.

Novità su agenti, prezzi e integrazioni

OpenAI amplia la struttura dei prezzi di ChatGPT con un nuovo livello con limiti di utilizzo più alti. Dettagli su ChatGPT Pro.
Anthropic estende la propria offerta con Claude Managed Agents per flussi automatizzati. Panoramica: Managed Agents nella documentazione di Claude.
L’uso di agenti di terze parti viene separato più nettamente dai modelli di abbonamento.
Plaid potenzia l’integrazione con Perplexity per le analisi finanziarie. Maggiori dettagli nel blogpost Plaid e Perplexity.
Factory AI rilascia un’app desktop per workflow di agenti in parallelo. Dettagli: Factory Desktop App.

Posted

April 15, 2026

Notizie

ChatX

Tags:

IA, Modelli, Sicurezza