・物体検出モデルDINOを、Vision & Langに拡張したオープンセット物体検出モデル・Transformerベースの構造上の緻密なモダリティ融合と、クローズドな物体検出モデルの活用が大きな特徴・2023年4月時点でSoTAで、Segment Anythingとの融合も行われている

論文まとめ：Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection