[1]

Roy West 2026. Hierarchical World-Model Reinforcement Learning for Long-Horizon Reasoning in Large Language Model Agents. International Journal of Artificial Intelligence Research. 1, 2 (May 2026).