[1]

Roy West, “Hierarchical World-Model Reinforcement Learning for Long-Horizon Reasoning in Large Language Model Agents”, IJAIR, vol. 1, no. 2, May 2026.