b-Bit MinHashによる高速かつ省スペースな類似度判定 - SmartNews Engineering Blog

<p><a href="http://www.gocro.jp/" target="_blank">ゴクロ</a>の浜本です。ネットカフェでコードを書くのが好きです。</p><p><a href="http://developer.smartnews.be/blog/2013/07/31/shakeflake-is-a-tool-for-generating-unique-id-numbers/" target="_blank">前回のエントリー</a>でも触れられていますが、<a href="https://www.smartnews.be/">SmartNews</a>はホットな話題をユーザにお届けするために、常時、膨大な数のツイートおよびURLをクロールしています。こうして収集した記事に対し、様々な分析が施されますが、その中でも重要な処理の1つに、記事の類似度</p>…