十一、Spark Core SQL高频面试题

阅读: 评论:0

十一、Spark Core  SQL高频面试题

十一、Spark Core SQL高频面试题

1 Spark有几种部署方式?请分别简要论述

        1)Local:运行在一台机器上,通常是练手或者测试环境。

        2)Standalone:构建一个基于Mster+Slaves的资源调度集群,Spark任务提交给Master运行。是Spark自身的一个调度系统。

        3)Yarn:Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。

        4)Mesos:国内大环境比较少用。

2 Spark任务使用什么进行提交,JavaEE界面还是脚本

        Shell脚本。

3 Spark提交作业参数(重点)

        参考答案:

        

        1)在提交任务时的几个重要参数

        executor-cores —— 每个executor使用的内核数,默认为1,官方建议2-5个,我们企业是4个

        num-executors —— 启动executors的数量,默认为2

        executor-memory —— executor内存大小,默认1G

        driver-cores —— driver使用内核数,默认为1

        driver-memory —— driver内存大小,默认512M

        2)边给一个提交任务的样式

        spark-submit

          --master local[5]  

          --driver-cores 2   

          --driver-memory 8g

          --executor-cores 4

          --num-executors 10

          --executor-memory 8g

          --class PackageName.ClassName XXXX.jar

          --name "Spark Job Name"

          InputPath      

          OutputPath

4  简述Spark的架构与作业提交流程(画图讲解,注明各个部分的作用)(重点)

yarn client运行模式介绍

 yarn cluster运行模式介绍

 5 如何理解Spark中的血统概念(RDD)(笔试重点)

        RDD在Lineage依赖方面分为两种Narrow Dependencies(窄依赖)与Wide Dependencies(宽依赖)用来解决数据容错时的高效性以及划分任务时候起到重要作用。

6 什么是RDD?RDD有什么特点?能否携带数据?

        RDD:叫做弹性分布式数据集

        特点:不可变,可分区,里面的元素可以并行计算的集合

        不能携带数据,类似于java中的接口,只能携带元数据

7 依赖关系,宽窄依赖的含义

        窄依赖:父RDD的一个分区只能被子RDD的一个分区所依赖=》独生子女(一对一)

        宽依赖:父RDD的一个分区可以被子RDD的多个分区所依赖=》超生子女(一对多)

简述Spark的宽窄依赖,以及Spark如何划分stage,每个stage又根据什么决定task个数? (笔试重点)

本文发布于:2024-02-05 07:13:01,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170727106464313.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:面试题   Spark   Core   SQL
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23