PDFをテキスト化したものの処理に便利な正規表現

備忘録的なメモです。(随時更新) 1. 文字と文字の間に挟まれた半角スペースを除去 検索文字列 ([ぁ-んァ-ン一-龥]) ([ぁ-んァ-ン一-龥]) 置換文字列 $1$2 2. 文中での改行を除去 検索文字列 ([ぁ-んァ-ン一-龥| ])\n[ぁ-んァ-ン一-龥| ] 置換文字列 $1$2 3. カタカナの連鎖のみを抽出 検索文字列 [ァ-ヴ][ァ-ヴー・]*