S-GRPO: early exit via reinforcement learning in reasoning models. キムチの里 大津. シャトー オー ブリオン 2012. 95% of 850000.