spark集群环境与任务调参

阅读：评论：0

spark集群环境与任务调参

集群环境配置

集群环境如下图：

配置信息：
master节点配置（spark-env.sh）：

计算节点：
jutai（192.168.1.210）配置（spark-env.sh）：（机器硬件为：2个cpu，每个14核。128G内存，4T硬盘）

hpcc（192.168.1.213），dell2 (192.168.1.212:50010)配置：未设置！，默认.（机器为4核cpu，空闲内存大概2.6G）
（启动集群（sbin/start-all.sh）的时候，会根据各个节点的spark-env.sh配置来初始化各个节点提供给整个集群的资源，若没有配置信息，则集群会根据该节点的实际情况自动配置该节点提供给整个集群的运行资源）

在该集群上提交任务：
输入数据：16G高程栅格数据+16G坡度栅格数据=32G
计算：对该数据进行reclassify计算

任务提交命令：
standalone集群运行：
spark-submit --d.Classify --name China-Standalone --master spark://spark:7077 --executor-memory 8G --total-executor-cores 8 /home/xgrd_v1.0.0.jar -e hdfs://masters/user/lyc/ChinaElevation256/tileZip -s hdfs://masters/user/lyc/ChinaSlope256/tileZip -o hdfs://masters/user/lyc/ChinaHHHH -g

（提交任务时需要设置使用总核数，每个executor内存，设置好后，spark集群会根据集群中的资源情况分配运行命令所要求的资源数）

运行时间记录：

local运行时间：34分14秒，38分45秒（单线程）
4核executor 8G：15分钟（启动了2个work，每个work使用了2核、8G，2个executor）
4核executor 16G：15分钟
4核executor 4G：16分钟
4核executor 2G：17分钟，4核executor 1G：17分钟（由于dell2和hpcc能够提供所需的资源，任务在这两台较差的节点上启动，没有在jutai上面启动worker）
【关闭dell2和hpcc两台节点，再次运行4核executor 2G，时间还是为17分钟，与上次的区别在于启动的两个worker都在jutai上面，但运行时间没有变化，说明在一台机器上面的worker和在不同机器上的worker运行效果相同。并不存在同一机器上的多个worker运行任务会变快的情况】

8核executor 8G：8.6分钟
8核executor 16G：9.4分钟（启动了4个worker，每个worker使用了2核、16G）
10核executor 4G：8.4分钟
12核executor 4G：7.4分钟
14核executor 4G：6.8分钟
16核executor 8G：5.7分钟、5.9分钟（启动了8个worker，每个worker使用了2核、8G）
16核executor 16G：6分钟
16核executor 4G：5.7分钟（启动了8个worker，每个worker使用了2核、4G，8个executor）
16核executor 2G：5.9分钟（启动了8个worker（其中配置低的两个内存为2.6G的worker也投入使用），每个worker使用了2核、2G，8个executor）
16核executor 1G：6.0分钟
16核executor 512M：6.5分钟
18核executor 2G：7分钟
32核executor 1G：5.9分钟（启动了全部的10个worker（8个2核1G，2个4核2G），共12个executor，实际启动24核）

运行任务记录：

实验总结，该任务运行时间在内存足够的情况下主要与分配的cpu核相关，1-16核间任务执行时间随着核数的递增而减少，时间减少幅度基本与cup核数增加的倍数相同，超过16核后，时间基本没有什么变化，表明此spark任务的并行度已经达到最大，此时硬件的增加不能加快任务的执行，优化只能从程序本身入手

本文发布于:2024-02-03 04:00:32，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170690403248511.html

上一篇：二维数组中的查找（java实现）

下一篇：Spark做日志分析

标签：集群环境 spark

留言与评论（共有 0 条评论）