首页 > 编程札记 > 编程

十一、Spark Core SQL高频面试题

阅读：评论：0

1 Spark有几种部署方式？请分别简要论述

1）Local：运行在一台机器上，通常是练手或者测试环境。

2）Standalone：构建一个基于Mster+Slaves的资源调度集群，Spark任务提交给Master运行。是Spark自身的一个调度系统。

3）Yarn：Spark客户端直接连接Yarn，不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点。

4）Mesos：国内大环境比较少用。

2 Spark任务使用什么进行提交，JavaEE界面还是脚本

Shell脚本。

3 Spark提交作业参数（重点）

参考答案：

1）在提交任务时的几个重要参数

executor-cores —— 每个executor使用的内核数，默认为1，官方建议2-5个，我们企业是4个

num-executors —— 启动executors的数量，默认为2

executor-memory —— executor内存大小，默认1G

driver-cores —— driver使用内核数，默认为1

driver-memory —— driver内存大小，默认512M

2）边给一个提交任务的样式

spark-submit

--master local[5]

--driver-cores 2

--driver-memory 8g

--executor-cores 4

--num-executors 10

--executor-memory 8g

--class PackageName.ClassName XXXX.jar

--name "Spark Job Name"

InputPath

OutputPath

4 简述Spark的架构与作业提交流程（画图讲解，注明各个部分的作用）（重点）

yarn client运行模式介绍

yarn cluster运行模式介绍

5 如何理解Spark中的血统概念（RDD）（笔试重点）

RDD在Lineage依赖方面分为两种Narrow Dependencies（窄依赖）与Wide Dependencies（宽依赖）用来解决数据容错时的高效性以及划分任务时候起到重要作用。

6 什么是RDD？RDD有什么特点？能否携带数据？

RDD：叫做弹性分布式数据集

特点：不可变，可分区，里面的元素可以并行计算的集合

不能携带数据，类似于java中的接口，只能携带元数据

7 依赖关系，宽窄依赖的含义

窄依赖：父RDD的一个分区只能被子RDD的一个分区所依赖=》独生子女（一对一）

宽依赖：父RDD的一个分区可以被子RDD的多个分区所依赖=》超生子女（一对多）

8 简述Spark的宽窄依赖，以及Spark如何划分stage，每个stage又根据什么决定task个数? （笔试重点）

本文发布于:2024-02-05 07:13:01，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170727106464313.html

上一篇：印度IT产业今年裁员5.6万，自动化大潮下安有完卵

下一篇：中国币友画像：七成小于35岁，以高收入男性为主

标签：面试题 Spark Core SQL

留言与评论（共有 0 条评论）