RDD的五大特性

阅读: 评论:0

RDD的五大特性

RDD的五大特性

文章目录

      • 五大特性
      • 问题一: 哪里体现了RDD的分布式和容错
      • 问题二:哪里体现了弹性
      • 问题三: 什么是K,V格式的RDD
      • 问题四:为什么partition能提供一系列的最佳位置

RDD : 弹性分布式数据集

五大特性

1.RDD是由一系列partition组成(block块对应partition),textFile底层调用的是MR读取hdfs上的数据的方法

默认一个block块对应一个split,split的大小和block大小一致,可以自己调整

2.函数作用在每一个partition(split)上

3.RDD之间有一系列的依赖关系(容错机制)

4.分区器作用在K,V格式的RDD上

5.RDD 提供一系列最佳的计算位置

问题一: 哪里体现了RDD的分布式和容错

1.partition分布在多台机器上

2.RDD之间有依赖关系,可以恢复数据,达到容错

问题二:哪里体现了弹性

partition的个数可以调整

问题三: 什么是K,V格式的RDD

RDD里的数据是一个二元组

问题四:为什么partition能提供一系列的最佳位置

1.partition对应的是一个个的block,hdfs的block

2.提供了最佳计算位置,能帮助spark达到移动计算而不是移动数据

本文发布于:2024-02-04 17:49:18,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170712962957980.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:RDD的五大特点
下一篇:RDD的五大属性
标签:五大   特性   RDD
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23