MMBT(MultiModal BiTransformers)の逆伝播について(マルチモーダル深層学習) - Qiita
前提 テキストと画像のマルチモーダル深層学習モデルであるMMBTについての質問です。 テキスト側(bert)のエンコーダーのパラメータ更新が確認できず、困っております。 実際に実務データでテキスト&画像のクラス分類を行い、テキスト単体(bert),画像単体(resne...