イノベーションセンターの加藤です。この記事ではWhisperによる音声認識の前処理と後処理にLLMとOCRを組み込むことで、映像の文字起こし精度の向上を図った際の検証結果を紹介します。 Whisperとは OCRの結果を盛り込み専門用語を認識させる大規模言語モデルで全体の文章を調整する各アプローチの融合結果の考察まとめ…

NTT docomo Business Engineers' Blog

Whisperによる映像文字起こしの精度をLLMとOCRの力で向上させる