DatabricksでLlama3.1 70BのマルチGPU推論を行う

はじめに こんにちは。テックラボの高橋です。 本記事ではDatabricks上でLlama3.1のマルチGPU推論ができるかどうか試していきます。 8Bのモデルだと16G 1枚で実行できてしまうので、あえて70Bのモデルに挑戦してみます。 ※モデル毎の速度比較については下記リンク先をご参照ください。 techblog.cccmkhd.co.jp 環境 Databr…