Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク | 翔泳社

Apache Sparkは多数のコンピュータを並列で動かして高速処理を実現する技術です。大量データのバッチ処理や機械学習など、ビッグデータの分野での活用が期待されるOSS(Open Source Software)です。 Apache SparkはUCバークレイで提唱されたRDD(Resilient Distributed Dataset)というデータモデルを採用し、メモリを上…