1)Local:运行在一台机器上,通常是练手或者测试环境。
2)Standalone:构建一个基于Mster+Slaves的资源调度集群,Spark任务提交给Master运行。是Spark自身的一个调度系统。
3)Yarn:Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。
4)Mesos:国内大环境比较少用。
Shell脚本。
参考答案:
1)在提交任务时的几个重要参数
executor-cores —— 每个executor使用的内核数,默认为1,官方建议2-5个,我们企业是4个
num-executors —— 启动executors的数量,默认为2
executor-memory —— executor内存大小,默认1G
driver-cores —— driver使用内核数,默认为1
driver-memory —— driver内存大小,默认512M
2)边给一个提交任务的样式
spark-submit
--master local[5]
--driver-cores 2
--driver-memory 8g
--executor-cores 4
--num-executors 10
--executor-memory 8g
--class PackageName.ClassName XXXX.jar
--name "Spark Job Name"
InputPath
OutputPath
yarn client运行模式介绍
yarn cluster运行模式介绍
RDD在Lineage依赖方面分为两种Narrow Dependencies(窄依赖)与Wide Dependencies(宽依赖)用来解决数据容错时的高效性以及划分任务时候起到重要作用。
RDD:叫做弹性分布式数据集
特点:不可变,可分区,里面的元素可以并行计算的集合
不能携带数据,类似于java中的接口,只能携带元数据
窄依赖:父RDD的一个分区只能被子RDD的一个分区所依赖=》独生子女(一对一)
宽依赖:父RDD的一个分区可以被子RDD的多个分区所依赖=》超生子女(一对多)
本文发布于:2024-02-05 07:13:01,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170727106464313.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |