きしだのHatena
id:nowokay
画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい
おとといくらいにDeepSeek-OCRというのが出てました。 https://github.com/deepseek-ai/DeepSeek-OCR ただのOCRじゃなくて、「テキストを画像にしたほうがトークンサイズを小さくできるのでは?」というのをやっていて、テキストを画像にしてトークン化したものをテキストトークンに戻すというのをやってたらOCRになったと…