ずんだもんのHugging Faceニュース Podcast - All Episodes

109

Daily AI Papers Briefing (2026-05-14)

【本日の論文】1. MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents https://huggingface.co/papers/2605.095302. SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture https://huggingface.co/papers/2605.125003. δ-mem: Efficient Online Memory for Large Language Models https://huggingface.co/papers/2605.123574. RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards https://huggingface.co/papers/2605.108995. Do Enterprise Systems Need Learned World Models? The Importance of Context to Infer Dynamics https://huggingface.co/papers/2605.12178

May 13, 2026

3m

108

Daily AI Papers Briefing (2026-05-13)

【本日の論文】1. Qwen-Image-2.0 Technical Report https://huggingface.co/papers/2605.107302. Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs https://huggingface.co/papers/2605.090633. CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models https://huggingface.co/papers/2605.087354. TMAS: Scaling Test-Time Compute via Multi-Agent Synergy https://huggingface.co/papers/2605.103445. PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents https://huggingface.co/papers/2605.10341

May 12, 2026

3m

107

Daily AI Papers Briefing (2026-05-12)

【本日の論文】1. Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers https://huggingface.co/papers/2605.061692. MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation https://huggingface.co/papers/2512.181813. Flow-OPD: On-Policy Distillation for Flow Matching Models https://huggingface.co/papers/2605.080634. HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents https://huggingface.co/papers/2605.071775. Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex https://huggingface.co/papers/2605.06139

May 11, 2026

3m

106

Daily AI Papers Briefing (2026-05-11)

【本日の論文】1. Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction https://huggingface.co/papers/2605.052422. Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning https://huggingface.co/papers/2605.061303. Continuous Latent Diffusion Language Model https://huggingface.co/papers/2605.065484. MiA-Signature: Approximating Global Activation for Long-Context Understanding https://huggingface.co/papers/2605.064165. RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation https://huggingface.co/papers/2605.04523

May 10, 2026

3m

105

Daily AI Papers Briefing (2026-05-10)

【本日の論文】1. Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction https://huggingface.co/papers/2605.052422. Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning https://huggingface.co/papers/2605.061303. Continuous Latent Diffusion Language Model https://huggingface.co/papers/2605.065484. MiA-Signature: Approximating Global Activation for Long-Context Understanding https://huggingface.co/papers/2605.064165. RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation https://huggingface.co/papers/2605.04523

May 9, 2026

3m

104

Daily AI Papers Briefing (2026-05-09)

【本日の論文】1. Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning https://huggingface.co/papers/2605.061302. Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction https://huggingface.co/papers/2605.052423. Continuous Latent Diffusion Language Model https://huggingface.co/papers/2605.065484. MiA-Signature: Approximating Global Activation for Long-Context Understanding https://huggingface.co/papers/2605.064165. RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation https://huggingface.co/papers/2605.04523

May 8, 2026

3m

103

Daily AI Papers Briefing (2026-05-08)

【本日の論文】1. Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation https://huggingface.co/papers/2605.038492. Stream-T1: Test-Time Scaling for Streaming Video Generation https://huggingface.co/papers/2605.044613. RLDX-1 Technical Report https://huggingface.co/papers/2605.032694. OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents https://huggingface.co/papers/2605.051855. HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation https://huggingface.co/papers/2604.28196

May 7, 2026

3m

102

Daily AI Papers Briefing (2026-05-07)

【本日の論文】1. ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration https://huggingface.co/papers/2605.030422. OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories https://huggingface.co/papers/2605.040363. Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL https://huggingface.co/papers/2604.281234. X2SAM: Any Segmentation in Images and Videos https://huggingface.co/papers/2605.008915. HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness https://huggingface.co/papers/2605.02396

May 6, 2026

3m

101

Daily AI Papers Briefing (2026-05-06)

【本日の論文】1. MolmoAct2: Action Reasoning Models for Real-world Deployment https://huggingface.co/papers/2605.028812. From Context to Skills: Can Language Models Learn from Context Skillfully? https://huggingface.co/papers/2604.276603. Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs https://huggingface.co/papers/2605.008144. Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling https://huggingface.co/papers/2604.280755. OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models https://huggingface.co/papers/2605.00877

May 5, 2026

4m

100

Daily AI Papers Briefing (2026-05-05)

【本日の論文】1. UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors https://huggingface.co/papers/2605.006582. Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction https://huggingface.co/papers/2604.272213. Map2World: Segment Map Conditioned Text to 3D World Generation https://huggingface.co/papers/2605.007814. Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions https://huggingface.co/papers/2604.237745. From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills https://huggingface.co/papers/2604.24026

May 4, 2026

3m

99

Daily AI Papers Briefing (2026-05-04)

【本日の論文】1. Heterogeneous Scientific Foundation Model Collaboration https://huggingface.co/papers/2604.273512. Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling https://huggingface.co/papers/2604.281853. Co-Evolving Policy Distillation https://huggingface.co/papers/2604.270834. Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists https://huggingface.co/papers/2604.281585. ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control https://huggingface.co/papers/2604.27711

May 3, 2026

3m

98

Daily AI Papers Briefing (2026-05-03)

【本日の論文】1. Heterogeneous Scientific Foundation Model Collaboration https://huggingface.co/papers/2604.273512. Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling https://huggingface.co/papers/2604.281853. Co-Evolving Policy Distillation https://huggingface.co/papers/2604.270834. ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control https://huggingface.co/papers/2604.277115. Efficient Training on Multiple Consumer GPUs with RoundPipe https://huggingface.co/papers/2604.27085

May 2, 2026

3m

97

Daily AI Papers Briefing (2026-05-02)

【本日の論文】1. Heterogeneous Scientific Foundation Model Collaboration https://huggingface.co/papers/2604.273512. Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling https://huggingface.co/papers/2604.281853. Co-Evolving Policy Distillation https://huggingface.co/papers/2604.270834. ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control https://huggingface.co/papers/2604.277115. Efficient Training on Multiple Consumer GPUs with RoundPipe https://huggingface.co/papers/2604.27085

May 1, 2026

4m

96

Daily AI Papers Briefing (2026-05-01)

【本日の論文】1. GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents https://huggingface.co/papers/2604.267522. Large Language Models Explore by Latent Distilling https://huggingface.co/papers/2604.249273. RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments https://huggingface.co/papers/2604.260674. ClawGym: A Scalable Framework for Building Effective Claw Agents https://huggingface.co/papers/2604.269045. Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models https://huggingface.co/papers/2604.26951

Apr 30, 2026

3m

95

Daily AI Papers Briefing (2026-04-30)

【本日の論文】1. Recursive Multi-Agent Systems https://huggingface.co/papers/2604.259172. Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora https://huggingface.co/papers/2604.248193. DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios https://huggingface.co/papers/2604.259144. AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery https://huggingface.co/papers/2604.252565. Meta-CoT: Enhancing Granularity and Generalization in Image Editing https://huggingface.co/papers/2604.24625

Apr 29, 2026

3m

94

Daily AI Papers Briefing (2026-04-29)

【本日の論文】1. From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company https://huggingface.co/papers/2604.224462. World-R1: Reinforcing 3D Constraints for Text-to-Video Generation https://huggingface.co/papers/2604.247643. ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning https://huggingface.co/papers/2604.243004. Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation https://huggingface.co/papers/2604.247635. Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms https://huggingface.co/papers/2604.23775

Apr 28, 2026

3m

93

Daily AI Papers Briefing (2026-04-28)

【本日の論文】1. Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond https://huggingface.co/papers/2604.227482. Video Analysis and Generation via a Semantic Progress Function https://huggingface.co/papers/2604.225543. DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction https://huggingface.co/papers/2604.215184. LLM Safety From Within: Detecting Harmful Content with Internal Representations https://huggingface.co/papers/2604.185195. FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing https://huggingface.co/papers/2604.22586

Apr 27, 2026

5m

92

Daily AI Papers Briefing (2026-04-27)

【本日の論文】1. LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics https://huggingface.co/papers/2604.172952. WorldMark: A Unified Benchmark Suite for Interactive Video World Models https://huggingface.co/papers/2604.216863. UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling https://huggingface.co/papers/2604.197344. StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition https://huggingface.co/papers/2604.216895. Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks https://huggingface.co/papers/2604.20987

Apr 26, 2026

3m

91

Daily AI Papers Briefing (2026-04-26)

【本日の論文】1. LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics https://huggingface.co/papers/2604.172952. WorldMark: A Unified Benchmark Suite for Interactive Video World Models https://huggingface.co/papers/2604.216863. UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling https://huggingface.co/papers/2604.197344. StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition https://huggingface.co/papers/2604.216895. Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks https://huggingface.co/papers/2604.20987

Apr 25, 2026

5m

90

Daily AI Papers Briefing (2026-04-25)

【本日の論文】1. LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics https://huggingface.co/papers/2604.172952. WorldMark: A Unified Benchmark Suite for Interactive Video World Models https://huggingface.co/papers/2604.216863. UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling https://huggingface.co/papers/2604.197344. StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition https://huggingface.co/papers/2604.216895. Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks https://huggingface.co/papers/2604.20987

Apr 24, 2026

4m

89

Daily AI Papers Briefing (2026-04-24)

【本日の論文】1. LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model https://huggingface.co/papers/2604.207962. Near-Future Policy Optimization https://huggingface.co/papers/2604.207333. DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data https://huggingface.co/papers/2604.198594. OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis https://huggingface.co/papers/2604.150935. DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation https://huggingface.co/papers/2604.20841

Apr 23, 2026

3m

88

Daily AI Papers Briefing (2026-04-23)

【本日の論文】1. Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items https://huggingface.co/papers/2604.197482. CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation https://huggingface.co/papers/2604.196363. AgentSPEX: An Agent SPecification and EXecution Language https://huggingface.co/papers/2604.133464. AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model https://huggingface.co/papers/2604.197475. TEMPO: Scaling Test-time Training for Large Reasoning Models https://huggingface.co/papers/2604.19295

Apr 22, 2026

3m

87

Daily AI Papers Briefing (2026-04-22)

【本日の論文】1. Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation https://huggingface.co/papers/2604.181682. OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation https://huggingface.co/papers/2604.184863. Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence https://huggingface.co/papers/2604.182924. OpenGame: Open Agentic Coding for Games https://huggingface.co/papers/2604.183945. MultiWorld: Scalable Multi-Agent Multi-View Video World Models https://huggingface.co/papers/2604.18564

Apr 21, 2026

4m

86

Daily AI Papers Briefing (2026-04-21)

【本日の論文】1. Elucidating the SNR-t Bias of Diffusion Probabilistic Models https://huggingface.co/papers/2604.160442. Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips https://huggingface.co/papers/2502.074083. PersonaVLM: Long-Term Personalized Multimodal LLMs https://huggingface.co/papers/2604.130744. Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems https://huggingface.co/papers/2604.049365. Qwen3.5-Omni Technical Report https://huggingface.co/papers/2604.15804

Apr 20, 2026

3m

85

Daily AI Papers Briefing (2026-04-20)

【本日の論文】1. HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds https://huggingface.co/papers/2604.142682. DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation https://huggingface.co/papers/2604.146833. RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework https://huggingface.co/papers/2604.153084. How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data https://huggingface.co/papers/2604.141645. GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens https://huggingface.co/papers/2604.15284

Apr 19, 2026

5m

84

Daily AI Papers Briefing (2026-04-19)

【本日の論文】1. HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds https://huggingface.co/papers/2604.142682. DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation https://huggingface.co/papers/2604.146833. RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework https://huggingface.co/papers/2604.153084. How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data https://huggingface.co/papers/2604.141645. GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens https://huggingface.co/papers/2604.15284

Apr 18, 2026

3m

83

Daily AI Papers Briefing (2026-04-18)

【本日の論文】1. HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds https://huggingface.co/papers/2604.142682. RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework https://huggingface.co/papers/2604.153083. DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation https://huggingface.co/papers/2604.146834. How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data https://huggingface.co/papers/2604.141645. ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack https://huggingface.co/papers/2509.25843

Apr 17, 2026

3m

82

Daily AI Papers Briefing (2026-04-17)

【本日の論文】1. Seedance 2.0: Advancing Video Generation for World Complexity https://huggingface.co/papers/2604.141482. GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents https://huggingface.co/papers/2604.074293. RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time https://huggingface.co/papers/2604.116264. SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments https://huggingface.co/papers/2604.141445. OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models https://huggingface.co/papers/2604.10866

Apr 16, 2026

3m

81

Daily AI Papers Briefing (2026-04-16)

【本日の論文】1. ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents https://huggingface.co/papers/2604.117842. KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance https://huggingface.co/papers/2604.126273. Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe https://huggingface.co/papers/2604.130164. Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization https://huggingface.co/papers/2604.095745. SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks https://huggingface.co/papers/2604.08865

Apr 15, 2026

4m

80

Daily AI Papers Briefing (2026-04-15)

【本日の論文】1. QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation https://huggingface.co/papers/2604.085702. The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping https://huggingface.co/papers/2604.112973. OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation https://huggingface.co/papers/2604.118044. Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation https://huggingface.co/papers/2604.100985. Strips as Tokens: Artist Mesh Generation with Native UV Segmentation https://huggingface.co/papers/2604.09132

Apr 14, 2026

3m

79

Daily AI Papers Briefing (2026-04-14)

【本日の論文】1. WildDet3D: Scaling Promptable 3D Detection in the Wild https://huggingface.co/papers/2604.086262. FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios https://huggingface.co/papers/2604.074133. RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details https://huggingface.co/papers/2604.068704. EXAONE 4.5 Technical Report https://huggingface.co/papers/2604.086445. Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory https://huggingface.co/papers/2604.08995

Apr 13, 2026

4m

78

Daily AI Papers Briefing (2026-04-13)

【本日の論文】1. Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability https://huggingface.co/papers/2604.066282. SkillClaw: Let Skills Evolve Collectively with Agentic Evolver https://huggingface.co/papers/2604.083773. ClawBench: Can AI Agents Complete Everyday Online Tasks? https://huggingface.co/papers/2604.085234. HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents https://huggingface.co/papers/2604.074305. When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models https://huggingface.co/papers/2604.08546

Apr 12, 2026

3m

77

Daily AI Papers Briefing (2026-04-12)

【本日の論文】1. SkillClaw: Let Skills Evolve Collectively with Agentic Evolver https://huggingface.co/papers/2604.083772. Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability https://huggingface.co/papers/2604.066283. HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents https://huggingface.co/papers/2604.074304. When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models https://huggingface.co/papers/2604.085465. ClawBench: Can AI Agents Complete Everyday Online Tasks? https://huggingface.co/papers/2604.08523

Apr 11, 2026

4m

76

Daily AI Papers Briefing (2026-04-11)

【本日の論文】1. Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability https://huggingface.co/papers/2604.066282. SkillClaw: Let Skills Evolve Collectively with Agentic Evolver https://huggingface.co/papers/2604.083773. HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents https://huggingface.co/papers/2604.074304. When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models https://huggingface.co/papers/2604.085465. ClawBench: Can AI Agents Complete Everyday Online Tasks? https://huggingface.co/papers/2604.08523

Apr 10, 2026

2m

75

Daily AI Papers Briefing (2026-04-10)

【本日の論文】1. Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning https://huggingface.co/papers/2604.047462. RAGEN-2: Reasoning Collapse in Agentic RL https://huggingface.co/papers/2604.062683. MARS: Enabling Autoregressive Models Multi-Token Generation https://huggingface.co/papers/2604.070234. Combee: Scaling Prompt Learning for Self-Improving Language Model Agents https://huggingface.co/papers/2604.042475. SEVerA: Verified Synthesis of Self-Evolving Agents https://huggingface.co/papers/2603.25111

Apr 9, 2026

3m

74

Daily AI Papers Briefing (2026-04-09)

【本日の論文】1. Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding https://huggingface.co/papers/2604.050152. Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents https://huggingface.co/papers/2604.061323. Learning to Retrieve from Agent Trajectories https://huggingface.co/papers/2604.049494. ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation https://huggingface.co/papers/2604.039225. GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers https://huggingface.co/papers/2604.02648

Apr 8, 2026

4m

73

Daily AI Papers Briefing (2026-04-08)

【本日の論文】1. OpenWorldLib: A Unified Codebase and Definition of Advanced World Models https://huggingface.co/papers/2604.047072. MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale https://huggingface.co/papers/2604.047713. LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models https://huggingface.co/papers/2603.283014. TriAttention: Efficient Long Reasoning with Trigonometric KV Compression https://huggingface.co/papers/2604.049215. Adam's Law: Textual Frequency Law on Large Language Models https://huggingface.co/papers/2604.02176

Apr 7, 2026

3m

72

Daily AI Papers Briefing (2026-04-07)

【本日の論文】1. Self-Distilled RLVR https://huggingface.co/papers/2604.031282. A Simple Baseline for Streaming Video Understanding https://huggingface.co/papers/2604.023173. Token Warping Helps MLLMs Look from Nearby Viewpoints https://huggingface.co/papers/2604.028704. Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence? https://huggingface.co/papers/2604.030165. Test-Time Scaling Makes Overtraining Compute-Optimal https://huggingface.co/papers/2604.01411

Apr 6, 2026

5m

71

Daily AI Papers Briefing (2026-04-06)

【本日の論文】1. DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models https://huggingface.co/papers/2603.261642. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook https://huggingface.co/papers/2604.020293. Generative World Renderer https://huggingface.co/papers/2604.023294. SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization https://huggingface.co/papers/2604.022685. Steerable Visual Representations https://huggingface.co/papers/2604.02327

Apr 5, 2026

4m

70

Daily AI Papers Briefing (2026-04-05)

【本日の論文】1. DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models https://huggingface.co/papers/2603.261642. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook https://huggingface.co/papers/2604.020293. Generative World Renderer https://huggingface.co/papers/2604.023294. SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization https://huggingface.co/papers/2604.022685. Steerable Visual Representations https://huggingface.co/papers/2604.02327

Apr 4, 2026

3m

69

Daily AI Papers Briefing (2026-04-04)

【本日の論文】1. DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models https://huggingface.co/papers/2603.261642. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook https://huggingface.co/papers/2604.020293. Generative World Renderer https://huggingface.co/papers/2604.023294. SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization https://huggingface.co/papers/2604.022685. EgoSim: Egocentric World Simulator for Embodied Interaction Generation https://huggingface.co/papers/2604.01001

Apr 3, 2026

3m

68

Daily AI Papers Briefing (2026-04-03)

【本日の論文】1. ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers https://huggingface.co/papers/2603.244142. Terminal Agents Suffice for Enterprise Automation https://huggingface.co/papers/2604.000733. MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome https://huggingface.co/papers/2603.284074. ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners? https://huggingface.co/papers/2603.258235. Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification https://huggingface.co/papers/2603.26648

Apr 2, 2026

5m

67

Daily AI Papers Briefing (2026-04-02)

【本日の論文】1. FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization https://huggingface.co/papers/2603.198352. CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence https://huggingface.co/papers/2603.280323. LongCat-Next: Lexicalizing Modalities as Discrete Tokens https://huggingface.co/papers/2603.275384. Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells https://huggingface.co/papers/2603.252405. GEMS: Agent-Native Multimodal Generation with Memory and Skills https://huggingface.co/papers/2603.28088

Apr 1, 2026

4m

66

Daily AI Papers Briefing (2026-04-01)

【本日の論文】1. TAPS: Task Aware Proposal Distributions for Speculative Sampling https://huggingface.co/papers/2603.270272. Towards a Medical AI Scientist https://huggingface.co/papers/2603.285893. Gen-Searcher: Reinforcing Agentic Search for Image Generation https://huggingface.co/papers/2603.287674. Emergent Social Intelligence Risks in Generative Multi-Agent Systems https://huggingface.co/papers/2603.277715. EpochX: Building the Infrastructure for an Emergent Agent Civilization https://huggingface.co/papers/2603.27304

Mar 31, 2026

3m

65

Daily AI Papers Briefing (2026-03-31)

【本日の論文】1. Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models https://huggingface.co/papers/2603.257162. ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling https://huggingface.co/papers/2603.257463. PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference https://huggingface.co/papers/2603.257304. Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills https://huggingface.co/papers/2603.251585. MedOpenClaw: Auditable Medical Imaging Agents Reasoning over Uncurated Full Studies https://huggingface.co/papers/2603.24649

Mar 30, 2026

3m

64

Daily AI Papers Briefing (2026-03-30)

【本日の論文】1. PixelSmile: Toward Fine-Grained Facial Expression Editing https://huggingface.co/papers/2603.257282. Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale https://huggingface.co/papers/2603.250403. Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration https://huggingface.co/papers/2603.248004. RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models https://huggingface.co/papers/2603.255025. Voxtral TTS https://huggingface.co/papers/2603.25551

Mar 29, 2026

4m

63

Daily AI Papers Briefing (2026-03-29)

【本日の論文】1. PixelSmile: Toward Fine-Grained Facial Expression Editing https://huggingface.co/papers/2603.257282. Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale https://huggingface.co/papers/2603.250403. Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration https://huggingface.co/papers/2603.248004. RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models https://huggingface.co/papers/2603.255025. Voxtral TTS https://huggingface.co/papers/2603.25551

Mar 28, 2026

3m

62

Daily AI Papers Briefing (2026-03-28)

【本日の論文】1. PixelSmile: Toward Fine-Grained Facial Expression Editing https://huggingface.co/papers/2603.257282. Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale https://huggingface.co/papers/2603.250403. RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models https://huggingface.co/papers/2603.255024. Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration https://huggingface.co/papers/2603.248005. MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data https://huggingface.co/papers/2603.25319

Mar 27, 2026

3m

61

Daily AI Papers Briefing (2026-03-27)

【本日の論文】1. CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents https://huggingface.co/papers/2603.244402. EVA: Efficient Reinforcement Learning for End-to-End Video Agent https://huggingface.co/papers/2603.229183. UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience https://huggingface.co/papers/2603.245334. T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search https://huggingface.co/papers/2603.223415. Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs? https://huggingface.co/papers/2603.24472

Mar 26, 2026

3m

60

Daily AI Papers Briefing (2026-03-26)

【本日の論文】1. MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding https://huggingface.co/papers/2603.224582. WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG https://huggingface.co/papers/2603.234973. SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning https://huggingface.co/papers/2603.234834. From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents https://huggingface.co/papers/2603.223865. PEARL: Personalized Streaming Video Understanding Model https://huggingface.co/papers/2603.20422

Mar 25, 2026

2m