はじめに BTMは大規模言語モデル(LLM)を効率的に訓練・推論する際の有効な手法の一つです｡学習用テキストを専門ごとにN分割 N個のモデルをそれぞれ独立に訓練全てのモデルをマージして利用というフローで学習・活用されます｡「専門家を集めてAIを作る」というイメージがピッタリの手法です｡有名所だと､M…

大規模言語モデルにおける混合エキスパートモデルの一種 Branch-Train-Merge (BTM)の勉強｜Kan Hatakeyama