William Whitaker. 2026. “Refining Decision Boundaries via Stepwise Reinforcement Learning from Human Feedback Integrating Intermediate Logic Verification and Large Language Model Reasoning”. International Journal of Artificial Intelligence Research 1 (2). https://doi.org/10.66280/ijair.v1i2.152.