(1)

Adaptive Reward Modeling for Large Language Model Reasoning Using Response Quality Prediction and Explainable Machine Learning Techniques. JAAIR 2026, 5 (1).