Daily Paper Cast

Daily Paper Cast

1,976 episodes — Page 1 of 40

DanceOPD: On-Policy Generative Field Distillation

Jun 28, 202625 min

In-Context World Modeling for Robotic Control

Jun 28, 202623 min

Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation

Jun 28, 202621 min

OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

Jun 28, 202623 min

The Verification Horizon: No Silver Bullet for Coding Agent Rewards

Jun 28, 202622 min

ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

Jun 28, 202625 min

JetSpec: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

Jun 28, 202620 min

GUI vs. CLI: Execution Bottlenecks in Screen-Only and Skill-Mediated Computer-Use Agents

Jun 28, 202623 min

Fast LeWorldModel

Jun 28, 202624 min

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

Jun 13, 202624 min

MiniMax Sparse Attention

Jun 13, 202626 min

SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning

Jun 13, 202622 min

InterleaveThinker: Reinforcing Agentic Interleaved Generation

Jun 13, 202621 min

FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents

Jun 13, 202623 min

Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

Jun 13, 202620 min

MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling

Jun 13, 202623 min

WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces

Jun 13, 202620 min

LabVLA: Grounding Vision-Language-Action Models in Scientific Laboratories

Jun 13, 202623 min

HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers

Jun 13, 202620 min

ABot-Earth 0.5: Generative 3D Earth Model

Jun 11, 202622 min

Kwai Keye-VL-2.0 Technical Report

Jun 11, 202625 min

Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution

Jun 11, 202622 min

Evolving Agents in the Dark: Retrospective Harness Optimization via Self-Preference

Jun 11, 202621 min

SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research

Jun 11, 202623 min

Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

Jun 11, 202626 min

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

Jun 11, 202621 min

SCAIL-2: Unifying Controlled Character Animation with End-to-end In-Context Conditioning

Jun 11, 202622 min

Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

Jun 11, 202624 min

Agents' Last Exam

Jun 10, 202625 min

SWE-Explore: Benchmarking How Coding Agents Explore Repositories

Jun 10, 202623 min

On the Geometry of On-Policy Distillation

Jun 10, 202626 min

LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents

Jun 10, 202622 min

Latent Spatial Memory for Video World Models

Jun 10, 202625 min

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

Jun 10, 202621 min

CoVEBench: Can Video Editing Models Handle Complex Instructions?

Jun 10, 202622 min

SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

Jun 10, 202624 min

Human Psychometric Questionnaires Mischaracterize LLM Behavior

Jun 10, 202625 min

Echo-Memory: A Controlled Study of Memory in Action World Models

Jun 10, 202621 min

From Activation to Causality: Discovery of Causal Visual Representations in the Human Brain

Jun 4, 202623 min

Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking

Jun 4, 202625 min

Trust Region On-Policy Distillation

Jun 4, 202624 min

KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks

Jun 4, 202622 min

COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

Jun 2, 202621 min

Representation Forcing for Bottleneck-Free Unified Multimodal Models

Jun 2, 202624 min

Mellum2 Technical Report

Jun 2, 202621 min

Function2Scene: 3D Indoor Scene Layout from Functional Specifications

Jun 2, 202621 min

GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration

Jun 2, 202623 min

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

Jun 2, 202626 min

TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation

May 23, 202622 min

Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?

May 23, 202623 min