首页 > 编程札记 > 编程

RDD的五大特性

阅读：评论：0

RDD的五大特性

RDD的五大特性

文章目录

- - 五大特性
  - 问题一: 哪里体现了RDD的分布式和容错
  - 问题二:哪里体现了弹性
  - 问题三: 什么是K,V格式的RDD
  - 问题四:为什么partition能提供一系列的最佳位置

RDD : 弹性分布式数据集

五大特性

1.RDD是由一系列partition组成(block块对应partition),textFile底层调用的是MR读取hdfs上的数据的方法

默认一个block块对应一个split,split的大小和block大小一致,可以自己调整

2.函数作用在每一个partition(split)上

3.RDD之间有一系列的依赖关系(容错机制)

4.分区器作用在K,V格式的RDD上

5.RDD 提供一系列最佳的计算位置

问题一: 哪里体现了RDD的分布式和容错

1.partition分布在多台机器上

2.RDD之间有依赖关系,可以恢复数据,达到容错

问题二:哪里体现了弹性

partition的个数可以调整

问题三: 什么是K,V格式的RDD

RDD里的数据是一个二元组

问题四:为什么partition能提供一系列的最佳位置

1.partition对应的是一个个的block,hdfs的block

2.提供了最佳计算位置,能帮助spark达到移动计算而不是移动数据

本文发布于:2024-02-04 17:49:18，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170712962957980.html

版权声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

上一篇：RDD的五大特点

下一篇：RDD的五大属性

标签：五大特性 RDD

留言与评论（共有 0 条评论）

推荐文章

排行榜

热门标签

我要关灯

我要开灯
返回顶部