JavaによるHTML文章の解析手法 - tSeiya's blog

一般的な検索システムの構成は以下のようになっている。 この内、インデクサの中は「HTML文章の解析」→「テキストの分析」→「画像の分析」→「検索用データ生成」となっている。今回は「HTML文章の解析」を行う。 そもそもHTML文章とは? ウェブページを記述するためのマークアップ言語(=HTML)で記述された文章で、基本…