文献整理2022 season 5 (7) PubMed書誌データをscrapeする

1年分ごとにfetchしたデータはそれぞれ数MB~30MB程度のファイルにおさまり、shell scriptでcatすると600万行ほどのファイルにまとまった。 書誌情報が構造化されて登録されている中で、タイトルと抄録のテキストからキーワードを収集しようとすると、行頭にTI あるいはABから始まる行を抜き出すことになる。 learn.micro…