大規模言語モデルにおける混合エキスパートモデルの一種 Branch-Train-Merge (BTM)の勉強|Kan Hatakeyama

はじめに BTMは大規模言語モデル(LLM)を効率的に訓練・推論する際の有効な手法の一つです。 学習用テキストを専門ごとにN分割 N個のモデルをそれぞれ独立に訓練 全てのモデルをマージして利用 というフローで学習・活用されます。「専門家を集めてAIを作る」というイメージがピッタリの手法です。 有名所だと、M…