動画からそれにあった音を生成 – Visual to Sound: Generating Natural Sound for Videos in the Wild

すでにいくつか画像と音(さらにテキストも)のCross-modalな特徴抽出の研究を紹介してきました。画像にぴ…