大規模言語モデルの性能の自動評価に関する問題点のメモ書き:Tanuki-8x8Bの事例から