これは面白い! Whisper EncoderとLlama3.2を2層MLPで繋いだだけでもちゃんと音声認識から直接LLMの回答を出力できる|shi3z

Twitterのタイムラインを見ていたら、面白そうなリポジトリが流れてきた。 スライドもよくまとまっていて面白いのだが、僕が特に面白いと思ったのは、このリポジトリにあるdemo2.ipynbの内容。 簡単にいうと、音声をWhisperのEncoderに入力した後、それをわずか2層のMLP(adapterと呼ばれている)を介してLlamaに入力…