pyspark-rdd-parallelize.py

7/30/2017 - 6:39 AM

data = range(1, 1000000)
dataRDD = sc.parallelize(data)

dataRDD.reduce(lambda acc, value: acc + value)

Cacher is the code snippet organizer for pro developers