大規模言語モデルの性能の自動評価に関する問題点のメモ書き：Tanuki-8x8Bの事例から

zenn.dev