case-kの備忘録
id:casekblog
【GCP入門】大規模データの前処理に!DataprocでPySparkジョブを実行し、GCS内のデータを加工する
今回はDataproc クラスタ上でジョブを実行し、GCS内のデータを加工したいと思います。 本記事の目的 本記事の用途 事前準備[ Dataprocクラスタ, GCSバケット ] PySparkで簡単なジョブを実行 Pig ジョブの実行 出力ファイルの取得 GCS内のデータを活用してPySparkジョブを実行 おわりに 本記事の目的 本記事は環境構築を数…