pagetakaBlog
id:PageTAKA
東証株式相場表:約3800銘柄のうち7銘柄でデータをピックアップできていない(7/27分)
前説:PythonスクリプトでPDFMiner動かしたけど、東証株式相場表(日報、PDF)で取得できてないデータがあるのがわかりました。 Pythonスクリプト、主に正規表現などを工夫し、484~491KB程度のCSVファイルになりました。 48銘柄がヒットしない。 データがあるのに拾えてない:15銘柄 データがある7銘柄の内訳は、PDF各頁…