case-kの備忘録
id:casekblog
DataprocでPySparkの分散並列処理を行う方法
Dataprocの備忘録です。DataprocでGCSに配置したcsvファイルをDataFrameで読み込み分散並列処理する記事です。 簡単にDataprocを紹介 事前準備 PySparkを実行 所感 簡単にDataprocを紹介 DataprocはGCP上でSparkやHadoopを実行できる環境を提供します。今回はDataprocを使ってPySparkを実行してみたいと思います。PySpark…