LLMに「謎解き」はできるのか?

LLMに「謎解き」はできるのか? ABEJAでデータサイエンス部のグループマネージャをしている中西 @cfiken です。本記事はABEJAアドベントカレンダー2025の13日目の記事です。 はじめに 謎解きの難しさ 検証のセットアップ 1. データセット:自作謎解きベンチマーク (riddle-benchmark) 2. 対象モデル 3. 検証方法 検証結果 …