2018-11-17
阅读量:
944
pyspark如何创建RDD
PySpark 如何创建RDD呢?
PySpark中有两种方法可以创建RDD:
1、使用parallelize(...) 通过传入python集合创建,如:list或array。第二个参数可以是分区数。
2、也可以引用文件(本地或者外部文件如HDFS等)
data_from_file = sc.textFile(path,p_num) ,其中path是文件路径,p_num是分区数。






评论(0)


暂无数据
推荐帖子
0条评论
1条评论
0条评论