nikkie-ftnextの日記
id:nikkie-ftnext
あ(U+3042)はどういう規則でb'\xe3\x81\x82'というバイト列に変換される? UTF-8の変換アルゴリズムを知りました
はじめに うにおん!ならぬ、うにこーど! nikkieです。 先日ChatGPTがどのように日本語テキストをトークン化するのか覗きました。 トークンのIDから対応するテキストを見ようとPythonのbytesを扱ったわけですが、その中で感じた疑問についてアウトプットです。 目次 はじめに 目次 あ(U+3042)をencodeするとb'\xe3\x81\…