[1]

William Whitaker 2026. Refining Decision Boundaries via Stepwise Reinforcement Learning from Human Feedback Integrating Intermediate Logic Verification and Large Language Model Reasoning. International Journal of Artificial Intelligence Research. 1, 2 (May 2026). DOI:https://doi.org/10.66280/ijair.v1i2.152.