SANS Summit IA et cybersécurité & Gemini 3.1 Pro et ARC-AGI - Actualités IA (21 févr. 2026)

from The Automated Daily · host TrendTeller

Merci de soutenir ce podcast en visitant nos sponsors: - Consensus: IA pour la recherche. Obtenez un mois gratuit - https://get.consensus.app/automated_daily - KrispCall: Téléphonie cloud agentique - https://try.krispcall.com/tad - Prezi: Créez rapidement des présentations avec l'IA - https://try.prezi.com/automated_daily Soutenez directement The Automated Daily: Offre-moi un café: https://buymeacoffee.com/theautomateddaily Sujets du jour: SANS Summit IA et cybersécurité - SANS annonce l’AI Cybersecurity Summit 2026 (12 CPE) et des formations GIAC (SEC503/504/560…). Focus: attaques IA, ateliers OWASP, réseautage et blueprint «Protect/Utilize/Govern AI». Gemini 3.1 Pro et ARC-AGI - Google déploie Gemini 3.1 Pro avec un score ARC-AGI-2 annoncé à 77,1% et teste des intégrations NotebookLM→Opal. Sur un harness ARC-AGI-3, Claude Opus 4.6 semble mieux gérer mémoire et exécution. Agents IA: Cord et pratiques - Cord coordonne des arbres d’agents à la volée (spawn vs fork, dépendances, questions humaines). En production, on retient aussi: prototyper avec SOTA, observabilité par traces, et «braintrust» multi-modèles. Sécurité des agents: sandbox Cursor - Cursor met en avant le sandboxing d’agents capables d’exécuter des commandes terminal: moins d’«approval fatigue», restrictions syscalls/fichiers (Seatbelt, Landlock/seccomp, WSL2) et arrêts -40%. Infrastructures d’inférence: Crusoe Cloud - Crusoe Managed Inference promet faible latence et haut débit grâce à MemoryAlloy (KV cache cluster), avec gains annoncés vs vLLM: TTFT jusqu’à 9,9x et tokens/s jusqu’à 5x, plus un hub Foundry. Optimisation automatique: GEPA optimize_anything - GEPA lance optimize_anything: optimiser tout artefact texte (code, prompts, SVG, architectures d’agents) via recherche Pareto et diagnostics ASI. Résultats: gains sur ARC-AGI, AIME et kernels CUDA. Prompts: répétition et apprentissage - Un papier Google suggère que répéter un prompt améliore certains LLMs non-orientés «raisonnement». Discussion: gaspillage de tokens, et piste de masquage d’attention segmentée à l’entraînement. Vie privée: pub, capteurs, edge - Le débat s’aiguise sur assistants «ambient» financés par la pub: risques audio/vidéo continus, et réponse proposée: inférence locale/edge. DuckDuckGo ajoute l’édition d’images avec promesse de métadonnées retirées. Plateformes et rivalités IA publiques - Rivalité OpenAI/Anthropic: moment gênant Altman–Amodei, campagne anti-pub, et questions stratégiques (Benedict Evans) sur différenciation, engagement et modèle économique. En parallèle, frictions Pentagon–Anthropic et enjeux de privilège avocat-client. Jeux vidéo: virage chez Xbox - Microsoft Gaming change de direction: Phil Spencer part à la retraite, Sarah Bond quitte aussi; Asha Sharma prend la tête avec promesse de ne pas inonder l’écosystème de «slop» IA et de garder les jeux comme art humain. -https://www.sans.org/cyber-security-training-events/ai-summit-2026 -https://arxiv.org/abs/2602.16301 -https://juno-labs.com/blogs/every-company-building-your-ai-assistant-is-an-ad-company -https://www.neowin.net/news/phil-spencer-is-exiting-microsoft-as-ai-executive-takes-over-xbox/ -https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/ -https://www.june.kim/cord -https://www.testingcatalog.com/google-test-notebooklm-integration-for-opal-workflows/ -https://x.com/scaling01/status/2024640940657246235 -https://tomtunguz.com/9-observations-using-ai-agents/ -https://daoudclarke.net/2026/02/19/repeating-prompt -https://www.crusoe.ai/cloud/managed-inference -https://www.sans.org/mlp/ai-security-blueprint -https://cursor.com/blog/agent-sandboxing -https://9to5mac.com/2026/02/19/duckduckgo-rolls-out-ai-powered-image-editing-on-duck-ai/ -https://mojodojo.io/blog/meta-is-systematically-killing-our-agency/ -https://gepa-ai.github.io/gepa/blog/2026/02/18/introducing-optimize-anything/ -https://fortune.com/2026/02/19/openai-anthropic-sam-altman-dario-amodei-refused-to-hold-hands-ai-super-bowl-ad-war-ceos-big-tech-conflict/ -https://thezvi.wordpress.com/2026/02/19/ai-156-part-1-they-do-mean-the-effect-on-jobs/ -https://www.ben-evans.com/benedictevans/2026/2/19/how-will-openai-compete-nkg2x Transcription de l'Episode SANS Summit IA et cybersécurité On commence donc par cette tension très actuelle entre modèle économique et vie privée. Un billet raconte qu’OpenAI aurait discrètement acté l’arrivée de publicités dans ChatGPT — annonce mi-janvier, mise en place début février. Et le texte fait un parallèle avec la course au matériel «ambient»: des appareils sans écran, bourrés de capteurs, pensés pour comprendre le contexte en continu. Sur le papier, c’est la promesse d’un assistant vraiment proactif. En pratique, si les revenus viennent de la pub, l’incitation structurelle est de capter davantage de signaux — voix, présence, habitudes — parce que ce sont ces signaux qui font la valeur publicitaire. L’auteur résume ça par une formule utile: la politique de confidentialité, c’est une promesse; l’architecture, c’est une garantie. D’où sa recommandation: basculer autant que possible vers de l’inférence locale, sur appareil, sans pipeline de télémétrie, de sorte que «l’assistant sache tout, mais ne renvoie rien». Gemini 3.1 Pro et ARC-AGI Dans le même esprit «privacy, mais avec des fonctionnalités», DuckDuckGo déploie de l’édition d’images dans Duck.ai: on glisse une image, on décrit la modification, et c’est gratuit sans compte — avec des limites plus hautes pour les abonnés. Point important: DuckDuckGo dit retirer les métadonnées et masquer l’IP avant d’envoyer la requête à un modèle OpenAI, et ajouter un marquage C2PA sur l’image éditée. C’est intéressant car on voit une tendance: même quand la techno sous-jacente est fournie par un grand acteur, l’interface et les garde-fous deviennent un produit à part entière. Agents IA: Cord et pratiques Côté «sécurité et IA», SANS met le paquet. D’abord avec l’annonce de l’AI Cybersecurity Summit 2026, les 20 et 21 avril, à Arlington en Virginie, ou en ligne en direct. 12 crédits CPE pour la partie summit, présidé par Rob T. Lee, et un programme annoncé comme volontairement technique: conférences, ateliers, et beaucoup de pratique. Il y a même des formats très concrets, comme un atelier “Hacking a Smart Pizza Place” basé sur l’OWASP AI Exchange — on y passe en revue injection de prompt, fuite de données, empoisonnement, risques supply chain, vulnérabilités de bases vectorielles, et comportements d’agents qui “en font trop”. Et un CTF “OWASP FinBot Lab” orienté pannes d’agents: goal hijacking, mauvais usage d’outils, et même des scénarios qui finissent en exécution de code à distance. C’est exactement le type de contenu qui colle à la réalité 2026: des systèmes agentiques qui ne se contentent plus de répondre, mais agissent. Sécurité des agents: sandbox Cursor SANS pousse aussi un message plus «gouvernance» avec son Secure AI Blueprint: Protect AI, Utilize AI, Govern AI. L’idée est simple: l’adoption va plus vite que la sécurité. Le blueprint promet des actions immédiates, adaptées aux profils — direction, équipes sécu, ingénierie. Au passage, la page rappelle un détail peu glamour mais bien réel: ces ressources sont téléchargeables en échange de coordonnées, donc à lire aussi comme une stratégie de diffusion… et de pipeline commercial assumé. Infrastructures d’inférence: Crusoe Cloud On enchaîne avec les modèles et leur évaluation. Google lance Gemini 3.1 Pro, déployé à partir du 19 février dans l’app Gemini et NotebookLM, et côté dev via API et Vertex AI. Google met en avant un gros score sur ARC-AGI-2: 77,1% vérifié, présenté comme plus du double de Gemini 3 Pro sur ce benchmark centré sur des motifs logiques nouveaux. Et Google positionne 3.1 Pro comme un socle pour des workflows «agentiques» plus ambitieux. Dans la vitrine de démos, on retrouve des choses très parlantes: générer des SVG animés prêts pour le web, construire un dashboard aérospatial en live en visualisant l’orbite de l’ISS à partir d’une télémétrie publique, ou encore coder une expérience 3D interactive avec hand-tracking et audio génératif. Optimisation automatique: GEPA optimize_anything Mais une autre info nuance l’enthousiasme: un post de tests “ARC-AGI-3” avec un harness maison — sans images, avec budget d’actions et une mémoire éditable — montre que Gemini 3.1 Pro progresse sur l’identification des tâches, mais trébuche dans l’exécution: mauvaise interprétation d’indices, oublis de transformations simples comme une rotation à 90°, et surtout une utilisation faible de l’outil mémoire, souvent deux phrases peu structurées. À l’inverse, Claude 4.6 Opus en mode “Thinking” s’en sort mieux, avec une mémoire plus organisée et une capacité à repérer les transformations clés, même s’il reste limité par le budget de mouvements et des gestes précis type “cliquer au pixel près”. Moralité: en 2026, le gap n’est pas seulement «raisonner», c’est «agir proprement» et «se souvenir utilement». Prompts: répétition et apprentissage Toujours chez Google, une rumeur produit est assez logique: NotebookLM pourrait devenir un “asset” natif dans Opal, l’outil no-code de Google Labs. Concrètement, un notebook apparaîtrait comme une tuile sur le canvas Opal, et un bloc “Generate” pourrait piocher explicitement dans ce corpus. Ce n’est pas juste une intégration de plus: ça transforme NotebookLM en couche de connaissance persistante, complémentaire d’une mémoire temporaire de workflow. Pour les analystes, c’est potentiellement la fin des copier-coller entre recherche et automatisation. Vie privée: pub, capteurs, edge Parlons agents, justement. Un projet open source appelé Cord propose de coordonner des “arbres” d’agents où la décomposition du travail se fait à l’exécution, pas via un workflow figé par le développeur. Le point saillant, c’est la distinction entre spawn — un enfant démarre avec un contexte minimal — et fork — il hérite du contexte accumulé. Dit autrement: on choisit consciemment quand isoler une branche de recherche et quand partager le contexte pour la synthèse. Cord tourne autour de primitives comme spawn, fork, ask, complete, et s’appuie sur une base SQLite partagée, avec un serveur qui impose résolution de dépendances et limites d’autorité. Et j’aime beaucoup un détail: le “humain” devient un nœud de l’arbre via ask, ce qui formalise enfin l’interruption utile — la question ciblée — au lieu de laisser l’agent deviner. Plateformes et rivalités IA publiques Dans la même veine “retour de terrain”, Tom Tunguz publie neuf observations après un an de systèmes d’agents en production. Quelques points à retenir: d’abord, pour les tâches à entrées chaotiques — emails, extraction bancale, audio — il conseille de prototyper avec le meilleur modèle disponible, puis de spécialiser. Ensuite, pour les tâches stables, le fine-tuning peut battre le prompting: exemple cité, un Qwen 3 8B affiné qui dépasse du GPT 5.2 en zero-shot, en local sur laptop. Il insiste aussi sur l’importance des traces: en IA, “les traces documentent l’app”. Son approche: analyser chaque nuit les dernières conversations, détecter échecs et corrections, puis faire proposer des améliorations de prompts par un LLM-juge, avec versioning et rollback. Enfin, il distingue les “skills” interactives — plus simples à déboguer — des chaînes d’agents autonomes, où l’erreur finale est souvent le produit de dix appels d’outils. Jeux vidéo: virage chez Xbox Cette autonomie pose un problème de sécurité très concret, et Cursor y répond avec le sandboxing des agents. Leur constat: demander une validation humaine pour chaque commande terminal diminue le risque… jusqu’au jour où on développe une “fatigue d’approbation” et on clique oui machinalement. Cursor a donc construit un bac à sable: l’agent exécute librement dans un environnement contraint, et ne demande une approbation que pour “sortir” — typiquement, accéder à Internet. Résultat annoncé: 40% d’arrêts en moins. Techniquement, c’est un patchwork intelligent: Seatbelt sur macOS via sandbox-exec, Landlock + seccomp sur Linux, et sur Windows, passage par WSL2 faute de primitives natives satisfaisantes. Le vrai message ici: l’agentic coding devient une surface d’attaque, et les IDE se transforment en éditeurs… plus politique de sécurité. Story 11 Côté infrastructure, Crusoe lance Managed Inference sur Crusoe Cloud avec une promesse très marketing mais intéressante à décortiquer: jusqu’à 9,9 fois plus rapide sur le “time-to-first-token” et jusqu’à 5 fois plus de tokens par seconde, mesurés contre vLLM sur Llama 3.3 70B en cluster 4 nœuds. Leur explication: MemoryAlloy, un KV cache à l’échelle du cluster qui évite les prefills dupliqués, conserve des sessions, et route intelligemment les requêtes. Ajoutez à ça speculative decoding et dynamic batching, et vous avez le cocktail classique “latence + débit”. Ils poussent aussi un portail, Intelligence Foundry, pour choisir des modèles, générer des clés API, surveiller les métriques et provisionner du throughput. Pour les équipes produit, ça rappelle une chose: la bataille 2026 n’est pas que “quel modèle”, c’est “quel temps de réponse au coût le plus bas”, surtout quand on veut des agents réactifs. Story 12 Deux papiers ferment la boucle “recherche → produit”. D’abord sur arXiv: une étude sur la coopération multi-agents par “in-context co-player inference”. L’idée est subtile: entraîner des agents séquentiels, via RL décentralisé, contre une grande diversité de partenaires. L’adaptation in-context devient un apprentissage rapide pendant l’épisode… et, surprise, rend l’agent vulnérable à l’extorsion. Cette vulnérabilité crée une pression de “shaping” mutuel: chacun apprend à influencer l’adaptation de l’autre, et ça converge vers de la coopération. C’est une vision assez moderne: la coopération n’émerge pas par morale, mais par dynamique d’incitations et de méta-stratégie. Story 13 Ensuite, un billet cite un papier Google: “Prompt Repetition Improves Non-Reasoning LLMs”. Traduction pragmatique: répéter le même prompt peut améliorer les scores. C’est à la fois pratique et un peu vexant pour l’état de l’art — comme si on pouvait gagner des points en insistant. L’auteur propose une piste d’entraînement: assouplir l’attention causale sur la partie “prompt” du contexte, via un masquage segmenté, pour capturer ce bénéfice sans brûler des tokens. Story 14 On termine par les coulisses et les rapports de force. D’un côté, un moment très commenté: Sam Altman et Dario Amodei côte à côte à New Delhi, photo de groupe avec Narendra Modi, et… pas de poignée de main, pas de regard, plutôt des poings levés. Anecdotique, mais ça tombe juste après une campagne publicitaire d’Anthropic très directe: “Ads are coming to AI. But not to Claude.” Altman a répliqué publiquement en accusant la campagne d’être trompeuse. La rivalité se joue désormais aussi sur la morale du modèle économique. Story 15 Et justement, l’analyste Benedict Evans pose quatre questions stratégiques à OpenAI: pas d’avantage technologique durable, une base utilisateurs immense mais peu engagée — “large mais peu profonde” —, des concurrents au même niveau qui bénéficient d’une distribution massive, et une roadmap produit dictée par la recherche. Dans ce cadre, la publicité peut être vue comme une façon de financer l’accès gratuit… mais Evans doute que “des modèles encore meilleurs” suffisent à résoudre le problème du produit: face à une boîte de dialogue, beaucoup d’utilisateurs restent bloqués par l’effet “page blanche”. Story 16 Enfin, un autre signal côté “institutions”: une revue TheZvi mentionne une friction entre le Pentagone et Anthropic autour des usages militaires — pré-approbation de «tous les usages légaux» sans les détailler, et refus d’Anthropic pour des armes totalement autonomes et la surveillance domestique. Dans la même compilation, on note aussi des discussions sur la productivité en hausse, et un point juridique piquant: des conversations avec un chatbot utilisées pour préparer une défense n’auraient pas, dans un cas, la protection du secret avocat-client. Donc oui, l’IA s’insère partout… mais le droit et les institutions ne suivent pas automatiquement. Story 17 Bonus hors IA pure, mais révélateur: Microsoft rebat les cartes du jeu vidéo. Phil Spencer part à la retraite, Sarah Bond quitte aussi, et Asha Sharma prend la tête de Microsoft Gaming. Son message interne promet trois axes — grands jeux, “retour de Xbox”, futur du play — et surtout une phrase à retenir: ne pas inonder l’écosystème de “slop” IA, parce que les jeux restent un art fait par des humains. C’est peut-être la façon la plus nette de résumer 2026: l’IA partout, mais pas à n’importe quel prix. Abonnez-vous aux flux spécifiques par édition: - Space news * Apple Podcast English * Spotify English * RSS English Spanish French - Top news * Apple Podcast English Spanish French * Spotify English Spanish French * RSS English Spanish French - Tech news * Apple Podcast English Spanish French * Spotify English Spanish Spanish * RSS English Spanish French - Hacker news * Apple Podcast English Spanish French * Spotify English Spanish French * RSS English Spanish French - AI news * Apple Podcast English Spanish French * Spotify English Spanish French * RSS English Spanish French Visit our website at https://theautomateddaily.com/ Send feedback to [email protected] Youtube LinkedIn X (Twitter)

NOW PLAYING