Microsoftに所属する研究者らは、複数枚の画像とテキストを処理できる大規模言語モデル（LLM）を提案した研究報告を発表した。DeepSpeed-VisualChatは最大70Bパラメータの言語モデルのサイズにおいて優れた拡張性を示した。

米Microsoft、“ChatGPTの目と耳実装”の影で画像対応の生成AI「DeepSpeed-VisualChat」開発