William Whitaker. “Refining Decision Boundaries via Stepwise Reinforcement Learning from Human Feedback Integrating Intermediate Logic Verification and Large Language Model Reasoning”. International Journal of Artificial Intelligence Research, vol. 1, no. 2, May 2026, doi:10.66280/ijair.v1i2.152.