nikkie-ftnextの日記
id:nikkie-ftnext
huggingface/tokenizersのNormalizer観察記 〜処理の部品化と統一されたインターフェース〜
はじめに う〜ん、おいし〜1 、nikkieです Python製OSSのソースコードを読むのが好きで、そこで得られた知見(新しく知った書き方や設計例)を実装の参考にします。 自然言語処理の前処理について参考にしたく、huggingface/tokenizersのソースコード(厳密には型定義のスタブ)を読みました。 今回は読んで考えたことをメ…