大規模言語モデルが“目”を持つとどうなる? グーグルによるデモの内容は

 米グーグルは、大規模言語モデル(LLM)が、人間で言うところの視覚を備えるようになったらどうなるか、大規模視覚モデル(VLM)のデモを公開した。