Roy West. “Hierarchical World-Model Reinforcement Learning for Long-Horizon Reasoning in Large Language Model Agents”. International Journal of Artificial Intelligence Research 1, no. 2 (May 25, 2026). Accessed May 28, 2026. https://isipress.org/index.php/IJAIR/article/view/175.