【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

阅读: 评论:0

【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代”

                                                          Spark亚太研究院100期公益大讲堂 【第15期互动问答分享】

 

Q1:AppClient和worker、master之间的关系是什么?

        AppClient是在StandAlone模式下SparkContext.runJob的时候在Client机器上应       用程序的代表,要完成程序的registerApplication等功能;

        当程序完成注册后Master会通过Akka发送消息给客户端来启动Driver;

        在Driver中管理Task和控制Worker上的Executor来协同工作;

 

Q2:Spark的shuffle 和hadoop的shuffle的区别大么?

        Spark的Shuffle是一种比较严格意义上的shuffle,在Spark中Shuffle是有RDD操作的依赖关系中的Lineage上父RDD中的每个partition元素的内容交给多个子RDD;

        在Hadoop中的Shuffle是一个相对模糊的概念,Mapper阶段介绍后把数据交给Reducer就会产生Shuffle,Reducer三阶段的第一个阶段即是Shuffle;

 

Q3:Spark 的HA怎么处理的?

        对于Master的HA,在Standalone模式下,Worker节点自动是HA的,对于Master的HA,一般采用Zookeeper;

        Utilizing ZooKeeper to provide leader election and some statestorage, you can launch multiple Masters in your cluster connected to the sameZooKeeper instance. One will be elected “leader” and the others will remain instandby mode. If the current leader dies, another Master will be elected,recover the old Master’s state, and then resume scheduling. The entire recoveryprocess (from the time the the first leader goes down) should take between 1and 2 minutes. Note that this delay only affects scheduling new applications– applications that were already running during Master failover are unaffected;

        对于Yarn和Mesos模式,ResourceManager一般也会采用ZooKeeper进行HA;

 

本文发布于:2024-02-02 06:40:41,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170682724042048.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:互动   大讲堂   亚太   研究院   公益
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23