【Python】日本語Wikipediaのダンプデータから本文を抽出する

日本語Wikipediaのダンプデータ中の本文を利用したい。 ただ、単純にパースするだけではWiki記法の記号等が邪魔である。 というわけでWikipedia Extractorを利用して本文だけテキストとして抽出します。 Wikipedia Extractorの他にもパースするためのライブラリはいくつかあるようなので、用途によっては別のライブラリを…