Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[ACL2018][論文読み] | VasteeLab

VQAタスクにおいて,文と画像のベクトルを統合する為の手法. VQAのようなマルチモーダルなタスクだと,文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題. よ...