data = range(1, 1000000) dataRDD = sc.parallelize(data) dataRDD.reduce(lambda acc, value: acc + value)