ONNXにしたWhisperのモデルの推論を速くするために、以下の方法を試した。 OpenVINOで推論 FP16化 INT8量子化 Whisperのモデルはbaseを使用している。 OpenVINOで推論 OpenVINOは、intelのCPUに最適化した推論エンジンである。 ONNX Runtimeの代わりに、OpenVINOで推論することで速くなるか試した。ただし、実験しているC…

TadaoYamaokaの開発日記

Whisperモデルの軽量化