yousanのメモ
id:ayousanz
Flow Matchingを用いた高速・高品質なゼロショットTTS「ZipVoice」を動かす
初めに 開発環境 環境構築 実行 初めに 高速推論が可能なZero ShotTTSを触ってみます github.com 処理のフローとしては以下のようになっています テキスト → トークナイザ → Text Encoder → FM Decoder → Vocoder → 波形(24kHz) 開発環境 Windows 11 uv 0.9.x cuda 13.0 環境構築 uvを使って構築するため、以下の pyprojec…