(1)

Roy West. Hierarchical World-Model Reinforcement Learning for Long-Horizon Reasoning in Large Language Model Agents. IJAIR 2026, 1.