William Whitaker. Refining Decision Boundaries via Stepwise Reinforcement Learning from Human Feedback Integrating Intermediate Logic Verification and Large Language Model Reasoning. IJAIR [Internet]. 2026 May 13 [cited 2026 May 14];1(2). Available from: https://isipress.org/index.php/IJAIR/article/view/152