RDD常用算子
算子类型分为Transformations和Actions
一、Transformations(转换算子)
Transformation操作并不会触发真正的计算,只会建立RDD间的关系图
1、数据转换:map、mapPartiions、mapPartiionsWithIndex、flatMap、filter
2、数据聚合:groupByKey、sortByKey、reduceByKey、aggregateByKey、combineByKey
3、数据整合:union、intersection、join、cogroup、cartesian、substract
4、数据整理:sample、distinct
5、数据分布:coalesce、repartion、repartitionAndSortWithinPartitions
二、Actions(执行算子)
Actions操作代表一次计算的结束,不再产生新的 RDD,将结果返回到Driver程序或者输出到外部
1、数据收集:collect、first、take、takeSample、takeOrdered、count、countByKey、countByValue
2、数据持久化:saveAsTextFile、saveAsSequenceFile、saveAsObjectFile
3、数据遍历:foreach
本文发布于:2024-01-31 18:06:57,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170669562030381.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |