AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation

We present a method for leveraging text-conditioned generative models for audio-based conditioning. Our method produces high-quality images which describes a scene from the audio recording