spark 常用转换和行动操作

阅读: 评论:0

spark 常用转换和行动操作

spark 常用转换和行动操作

1、转换操作:

任意数据类型的RDD.

map():接收一个函数,并将函数用于RDD中的每一个元素,将函数返回结果作为RDD中对应的元素值。返回类型不需要和输入类型一样。

如:url集合中每个对应url的主机名输出。

filter():接收一个函数,并将RDD中满足该函数的元素放入新的RDD中。如输入string,输出double类型。

flatmap():每个输入元素,生成多个输出元素。

返回一个返回值序列的迭代器,不是由迭代器组成而是一个包含各个迭代器可访问的所有元素的RDD.如:把输入的字符串切分为单词。

2、伪集合操作:

要求操作的RDD有相同的数据类型。

union返回一个包含两个RDD中所有元素的RDD,如果输入的RDD中有重复数据,spark的union()操作也会包含这些重复的数据。distict()实现相同的效果。

intersection()只返回两个RDD中都有的元素。也会去掉所有重复的元素(单个RDD中重复的元素也会一起移除),但性能相比union差,需要通过网络混洗数据发现共有元素。

需要移除数据。substract(other)接收另一个RDD作为一个参数,返回一个由只存在第一个RDD中而不存在在第二个RDD中所有元素组成的RDD.也需要数据混洗。

返回两个RDD的笛卡尔积。cartesian(other)返回所有kennel的(a,b)对。a、b来自两个RDD.

如:求用户相似度,求一个RDD与自身的笛卡尔积。

3、行动操作

reduce():操作两个相同数据类型的RDD,并返回同样类型的新元素。

如函数+,对RDD进行累加,计算出所有元素的总和、元素个数、以及其他类型的聚合操作。

python中的reduce():  

sum&#duce(lamba x,y: x+y)

scala中的reduce():

var sum&#duce((x,y) =>  x+y)

fold():接收一个与reduce()函数签名相同的函数,再加上一个“初始值”来作为每个分区第一次调用时的结果。提供的初始值应当是你提供的操作的单位元素。返回类型与操作类型相同。

aggregate():不需要返回类型与曹所的RDD类型相同。提供返回类型的初始值。然后通过一个函数把RDD中的元素合并起来放入累加器。最终还要第二个函数将累加器两两合并。

----没懂!!!

如:可来计算RDD中的平均值。

python中的aggregate()

sumCount = nums.aggregate((0,0),

                                 (lamba acc,value:(acc[0] + value,acc[1] + 1),

                                (lamba acc1,acc2:(acc1[0] +acc2[0], acc1[1] + acc2[1]))))

return sumCount[0] / float(sumCount[1])

collecet():普通集合或值的形式将RDD的部分或全部数据返回驱动器的程序中。数据返回无序,要求所有数据都能在同一个单台机器的内存中。不适合处理大数据,适合单元测试使用。taken(n)返回RDD中的n个元素。

top()从RDD中获取前几个元素。

takeSample(withRelacement,num,seed)函数可以让我们从数据中获取一个采样,并指定是否替换。

foreach():用json格式把数据发送到一个网络服务器上,或者把数据存到数据库中。可以对RDD中每个元素进行操作。

4、特定函数

有些函数只能用在特定类型的RDD

mean()、va riance()只能用在数值RDD上;join()只能用在键值对RDD上。

5、额外函数

通过import来使用隐士转换,隐士转换可以将一个RDD转换为各种封装类,就会有诸如mean(),varience()之类的额外函数。

6、RDD选择持久化(缓存)

persist()会把数据以序列化形式存在JVM的堆空间中。persist()调用本身不会触发强制求值。

unpersist()可以把手动持久化的RDD从缓存中移除。

本文发布于:2024-02-03 08:40:02,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170692080249899.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:常用   操作   spark
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23