前提テキストと画像のマルチモーダル深層学習モデルであるMMBTについての質問です。テキスト側（bert）のエンコーダーのパラメータ更新が確認できず、困っております。実際に実務データでテキスト＆画像のクラス分類を行い、テキスト単体（bert）,画像単体（resne...

MMBT（MultiModal BiTransformers）の逆伝播について（マルチモーダル深層学習） - Qiita