240 发简信
IP属地:北京
  • Spark Streaming Backpressure Rate Control

    Spark Streaming整体流程如下图所示。图中左边部分负责流数据的接收,右边部分负责流数据的处理。对于数据处理部分,JobGenerat...

    0.1 1607 0 1 2016.09.19 12:55
  • Spark TorrentBroadcast

    Broadcast 就是将数据从一个节点发送到其他各个节点上去。Spark有两种方式:一种是HttpBroadcast,另一种是TorrentB...

    1662 0 2 2016.09.18 11:08
  • RDD介绍

    全称Resilient Distributed Datasets。Resilient(弹性):数据集的划分(进而决定了并行度)可变 内部接口: ...

    689 0 0 2016.07.28 06:25
  • Spark Tungsten Shuffle Write

    ShuffleMapTask的runTask()方法 首先得到shuffleManager,shuffleManager分为三种SortShuf...

    515 0 1 2016.07.19 03:05
  • Resize,w 360,h 240
    Spark Shuffle Write的演化

    目前,spark shuffle write有三种方法:hash shuffle、sort shuffle和tungsten-sort shuf...

    1319 0 2 2016.07.18 14:13
  • Spark Sort Shuffle Write

    Spark sort shuffle write的过程大致如下: ShuffleMapTask的runTask()方法 首先得到shuffleM...

    464 0 1 2016.07.14 07:44
  • Spark Sort Shuffle Read

    Shuffle read 是等到Mapper stage结束后才开始读取数据。边读取数据边处理,数据先放在内存,最后落盘。下面先介绍Shuffl...

    679 0 0 2016.07.13 03:17
  • Spark Job 详细执行流程(二)

    Spark Job执行流程大体如下:用户提交Job后会生成SparkContext对象,SparkContext向Cluster Manager...

    0.1 3659 0 7 2016.04.08 06:18
  • Resize,w 360,h 240
    Spark Job 详细执行流程(一)

    本文以Spark 1.6 Standalone模式为例,介绍用户提交Spark Job后的Job的执行流程。大体流程如下图所示 用户提交Job后...

    6596 1 2 2016.03.23 09:48