Daily Paper Cast

Daily Paper Cast

1,976 episodes — Page 5 of 40

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Apr 17, 202626 min

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Apr 17, 202624 min

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Apr 17, 202624 min

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language Environment Simulation

Apr 17, 202627 min

Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

Apr 17, 202626 min

From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space

Apr 17, 202623 min

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Apr 17, 202622 min

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

Apr 16, 202623 min

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Apr 16, 202625 min

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Apr 16, 202621 min

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Apr 16, 202622 min

Toward Autonomous Long-Horizon Engineering for ML Research

Apr 16, 202624 min

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

Apr 16, 202621 min

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Apr 15, 202624 min

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

Apr 15, 202621 min

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Apr 15, 202621 min

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

Apr 15, 202621 min

Strips as Tokens: Artist Mesh Generation with Native UV Segmentation

Apr 15, 202621 min

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

Apr 15, 202622 min

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

Apr 15, 202623 min

CocoaBench: Evaluating Unified Digital Agents in the Wild

Apr 15, 202622 min

CodeTracer: Towards Traceable Agent States

Apr 15, 202623 min

WildDet3D: Scaling Promptable 3D Detection in the Wild

Apr 14, 202625 min

FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios

Apr 14, 202621 min

EXAONE 4.5 Technical Report

Apr 14, 202623 min

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

Apr 14, 202622 min

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

Apr 14, 202623 min

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Apr 11, 202624 min

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

Apr 11, 202622 min

RAGEN-2: Reasoning Collapse in Agentic RL

Apr 10, 202625 min

MARS: Enabling Autoregressive Models Multi-Token Generation

Apr 10, 202623 min

Combee: Scaling Prompt Learning for Self-Improving Language Model Agents

Apr 10, 202621 min

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Apr 9, 202624 min

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Apr 9, 202622 min

Learning to Retrieve from Agent Trajectories

Apr 9, 202622 min

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

Apr 9, 202624 min

GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

Apr 9, 202623 min

Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

Apr 9, 202621 min

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Apr 9, 202622 min

Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

Apr 9, 202624 min

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Apr 9, 202625 min

Watch Before You Answer: Learning from Visually Grounded Post-Training

Apr 9, 202620 min

OpenWorldLib: A Unified Codebase and Definition of Advanced World Models

Apr 8, 202623 min

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Apr 8, 202623 min

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Apr 8, 202622 min

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

Apr 8, 202621 min

Adam's Law: Textual Frequency Law on Large Language Models

Apr 8, 202622 min

AURA: Always-On Understanding and Real-Time Assistance via Video Streams

Apr 8, 202623 min

ClawArena: Benchmarking AI Agents in Evolving Information Environments

Apr 8, 202621 min

SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

Apr 8, 202622 min

« Prev 2 3 456 7 8 Next »