VQAタスクにおいて，文と画像のベクトルを統合する為の手法． VQAのようなマルチモーダルなタスクだと，文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題．よ...

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[ACL2018][論文読み] | VasteeLab