Spark 集群搭建

阅读: 评论:0

Spark 集群搭建

Spark 集群搭建

Apache Spark 一个很快多用途的集群计算系统。提供了很多语言API :Java, Scala, Python and R,还支持很多高级的工具,包括Spark SQL用于SQL和结构化数据的处理,MLlib机器学习,GraphX 用于图形处理和Spark Streaming. 总的说:Spark 支持离线计算、实时计算、机器学习。

Spark为什么快呢,

1、如果没有需要,Spark处理的数据可以一直在内存直至该条数据计算结束。Hadoop MR  M->R过程 需要shuffle 磁盘

2、task启动时间比较快,Spark是fork出线程;而MR是启动一个新的进程

Spark会根据任务去切分stage(根据宽依赖和窄依赖),每个STAGE 都会是一个线程、一个task。hadoop 总的是分成map和reduce两个过程(这边不谈 combine sort 等过程),而spark 根据代码 把一个job 分成若干个stage,每个stage 处理不同阶段的数据。

 

Spark 主要分为 Master  和 Worker 两个模块,Master 主要是管理,Worker 跑一些 Job

 

1、准备

下载 Spark tar包(spark-2.2. ),主机 ,主机安装JDK8

我这边搭建的是非HA(High Available)

2、安装

安装无非就是把服务的配置文件改一下

查看目录如下:

conf 下的目录如下,都是一些模板文件,我们需要plate  和 plate 复制出来,并去掉template 的后缀。slaves 是Worker 的 ip 或者 域名,作用就是启动spark的时候 可以用ssh 远程启动 Worker。spark-env.sh 是Spark 的一些环境

plate slave
cp plate spark-env.sh

 

直接在文件末尾追加ip 或者 域名

我这边是配置 c2,c4,c5 为work 如果 单机就 配置 localhost 或者 127.0.0.1等

在spark-env.sh末尾追加

export JAVA_HOME=/usr/java/jdk1.8.0_131    #添加jdk环境变量
export SPARK_MASTER_IP=s1                         #添加master ip 或者 域名
export SPARK_MASTER_PORT=7077                 #master 通信端口

 

启动

 

运行spark目录下的sbin/start-all.sh(PS:内网的话,关掉防火墙或者一个一个的开启端口)

启动之后可以通过spark webui 去访问  masterIP+8080

sbin/start-all.sh

 

转载于:.html

本文发布于:2024-01-28 09:48:56,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/17064065396556.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:集群   Spark
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23