1. はじめに前回、OpenAI o1をどう作るかについて概要レベルで議論しました。 OpenAI o1が新しい強化学習手法を用いて強化されたモデルであることは確実であり、具体的にどういうロジックで学習されているか考えていきたいと思います。強化学習について間違った理解があればご指摘ください。（一応学習はしたものの普段…

OpenAI o1はどう作るのか（詳細編）｜はち