集群环境如下图:
配置信息:
master节点配置(spark-env.sh):
计算节点:
jutai(192.168.1.210)配置(spark-env.sh):(机器硬件为:2个cpu,每个14核。128G内存,4T硬盘)
hpcc(192.168.1.213),dell2 (192.168.1.212:50010)配置:未设置!,默认.(机器为4核cpu,空闲内存大概2.6G)
(启动集群(sbin/start-all.sh)的时候,会根据各个节点的spark-env.sh配置来初始化各个节点提供给整个集群的资源,若没有配置信息,则集群会根据该节点的实际情况自动配置该节点提供给整个集群的运行资源)
在该集群上提交任务:
输入数据:16G高程栅格数据+16G坡度栅格数据=32G
计算:对该数据进行reclassify计算
任务提交命令:
standalone集群运行:
spark-submit --d.Classify --name China-Standalone --master spark://spark:7077 --executor-memory 8G --total-executor-cores 8 /home/xgrd_v1.0.0.jar -e hdfs://masters/user/lyc/ChinaElevation256/tileZip -s hdfs://masters/user/lyc/ChinaSlope256/tileZip -o hdfs://masters/user/lyc/ChinaHHHH -g
(提交任务时需要设置使用总核数,每个executor内存,设置好后,spark集群会根据集群中的资源情况分配运行命令所要求的资源数)
运行时间记录:
运行任务记录:
实验总结,该任务运行时间在内存足够的情况下主要与分配的cpu核相关,1-16核间任务执行时间随着核数的递增而减少,时间减少幅度基本与cup核数增加的倍数相同,超过16核后,时间基本没有什么变化,表明此spark任务的并行度已经达到最大,此时硬件的增加不能加快任务的执行,优化只能从程序本身入手
本文发布于:2024-02-03 04:00:32,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170690403248511.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |