Roy West. 2026. “Hierarchical World-Model Reinforcement Learning for Long-Horizon Reasoning in Large Language Model Agents”. International Journal of Artificial Intelligence Research 1 (2). https://isipress.org/index.php/IJAIR/article/view/175.