32の同時ユーザーで15トークン/秒 TenstorrentがLLMのデモを披露

Tenstorrentは、同社の「LoudBox」ワークステーションのデモを披露した。Llama3.1-70B(BF8精度)を、32の同時ユーザー数で15トークン/秒/ユーザー(token/s/user)の速度で実行した。