#reward model training

ゴブリン事件が示すもの――報酬モデルの誤調整がフロンティアAIの訓練を壊す理由

導入：予期せぬバグが露呈した根本的な問題 OpenAI の GPT-5.5 から報告された「ゴブリン問題」は、単なるユーモアのエラーではない。強化学習(RL)による訓練過程で報酬モ...