[1]

William Whitaker, “Refining Decision Boundaries via Stepwise Reinforcement Learning from Human Feedback Integrating Intermediate Logic Verification and Large Language Model Reasoning”, IJAIR, vol. 1, no. 2, May 2026.