WILLIAM WHITAKER. Refining Decision Boundaries via Stepwise Reinforcement Learning from Human Feedback Integrating Intermediate Logic Verification and Large Language Model Reasoning. International Journal of Artificial Intelligence Research, [S. l.], v. 1, n. 2, 2026. DOI: 10.66280/ijair.v1i2.152. Disponível em: https://isipress.org/index.php/IJAIR/article/view/152. Acesso em: 14 may. 2026.