1.RDD是由一系列partition组成(block块对应partition),textFile底层调用的是MR读取hdfs上的数据的方法
默认一个block块对应一个split,split的大小和block大小一致,可以自己调整
2.函数作用在每一个partition(split)上
3.RDD之间有一系列的依赖关系(容错机制)
4.分区器作用在K,V格式的RDD上
5.RDD 提供一系列最佳的计算位置
1.partition分布在多台机器上
2.RDD之间有依赖关系,可以恢复数据,达到容错
partition的个数可以调整
RDD里的数据是一个二元组
1.partition对应的是一个个的block,hdfs的block
2.提供了最佳计算位置,能帮助spark达到移动计算而不是移动数据
本文发布于:2024-02-04 17:49:18,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170712962957980.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |