Roy West. (2026). Hierarchical World-Model Reinforcement Learning for Long-Horizon Reasoning in Large Language Model Agents. International Journal of Artificial Intelligence Research, 1(2). Retrieved from https://isipress.org/index.php/IJAIR/article/view/175