Stability-AI/lm-evaluation-harnessをColabで動かす(cyberagent-open-calm-7bをJCommonsenseQAタスクで評価)

はじめに エミリーちゃん、お誕生日おめでとうございました!1 nikkieです。 LLMの性能評価に興味を持ち、いくつかある評価ツールの中の1つ、Stability-AI/lm-evaluation-harnessを動かしました。 日本語の1タスクで性能を求めた例であり、車輪の再実装です。 目次 はじめに 目次 Stability-AI/lm-evaluation-harness Stab…