用語「RLHF」について説明。人間のフィードバックを使ってAIモデルを強化学習する手法を指す。OpenAIのChatGPT／InstructGPTでは、人間の価値基準に沿うように、言語モデルをRLHFでファインチューニング（微調整）している。

RLHF（人間のフィードバックによる強化学習）とは？