William Whitaker (2026) “Refining Decision Boundaries via Stepwise Reinforcement Learning from Human Feedback Integrating Intermediate Logic Verification and Large Language Model Reasoning”, International Journal of Artificial Intelligence Research, 1(2). doi: 10.66280/ijair.v1i2.152.