大数据技术训练舱——从零开始安装、配置CentOS 7

阅读: 评论:0

大数据技术训练舱——从零开始安装、配置CentOS 7

大数据技术训练舱——从零开始安装、配置CentOS 7

大数据技术的学习任重而道远,很多小伙伴都会卡在诸多的基础问题上,因此作为大数据技术方面的布道者,我将开启一个全新的学习实践与指导计划:

从零开始,一步步由浅入深,系统化的开展大数据技术实践的学习指导,手把手的教会我们怎么应用大数据技术框架,再配合上大数据技术、分布式架构的原理研究、系统优化、框架协作等高级内容,使得我们能更深刻的掌握大数据技术。期待能促进更多的工程师朝着大数据、人工智能、物联网等新一代技术方向前进与突破。


全文七千字,二十六幅示意图,内容包括:CentOS7安装、服务端基础运维工作安装、服务端基础环境配置、服务端Java环境安装与配置等。

目录

1. 准备工作

2.安装CentOS7

3.系统配置与安装软件

1)网络配置:

2)基础工具安装

3)基础环境配置

4)Java环境安装

4. 结尾


1. 准备工作

前期准备工作主要分为两处:

一是在桌面安装虚拟化工具,当前演示的工具是VWware面向桌面版的虚拟化产品,VMware为Windows操作系统提供了VMware Workstaion,为MacOS操作系统提供了VMware Fusion,目前我的MacOS的版本是Big Sur,并没有升级到Monterey,Fusion是最新版本12.0.0,Big Sur版本的MacOS尽量不要低于Fusion12.0.0。

VWware产品最好在官网下载,建议大家购买正版。:)

二就是需要下载CentOS 7,目前7.x的最高版本是7.9,在企业级云计算市场CentOS7依然占据霸主地位,无论RedHat怎么谈放弃,企业级的依赖一旦形成是很难说替就替的,至少这几年内,建议仍然在版本7的基础上运行大数据系统,我们也主要在此版本上搭建技术学习环境。

下载地址:CentOS Mirrors List

在此网页的镜像列表中寻找速度快的镜像地址,如下图1.1所示:下载Minimal即可,这是极精简版,若我们希望安装图形化的Linux桌面,例如Gnome,是需要下载DVD版本,但是我们作为后端服务使用,最佳的建议就是Linux的体积越小越好,我们可以在此基础上安装必要的应用包,但是下载选择也有特例,例如:我们的环境没有互联网,那么以后遇到大量基础依赖包的安装的情况会非常麻烦,这样才会选择下载Everything版本,方便安装后从虚拟介质上安装依赖包。

图 1.1

Vmware桌面安装我们就不在这里赘述,直接开始CentOS7.9的安装和配置。

2. 安装CentOS7

安装示例的基础环境为:MacOS Big Sur,VMware Funsion 12.0.0

步骤一,打开VMware Funsion,点击新建,拖动下载的CentOS-7-x86_64-XXX-2009.iso文件到下图1.2的蓝色框区域。

图 1.2

步骤二,下图1.3,点击“继续”。

图 1.3

步骤三,下图1.4,点击“继续”。

图 1.4

步骤四,下图1.5,点击“自定设置”。

图 1.5

步骤五,下图1.6,选择VM磁盘镜像文件的存储目录。

图 1.6

步骤六,安装准备阶段主要调整CPU、内存和磁盘,如下图1.7。

图 1.7

步骤七,下图1.8,调整CPU的核心数,请按照本机的总核心数来平均分配,一般大数据技术学习的机器配置,需要实现多节点的集群模式,不同的框架需要的节点数量不同,一般是3-6个节点比较合适,8个节点最好,每节点内存:4G~16G,假如你的PC具有8核,内存32GB,那么最佳的方式就是2核8GB x 3节点或者1核4G x 6节点。

图 1.8

步骤八,下图1.9,每个节点的磁盘一般约定在50GB起,虚拟机默认情况并不会一次占用50GB,而是根据量使用不断增长到50GB,如果学习实验过程中数据量过大,可以后期扩容,这个操作我们在以后的章节会讲到。

图 1.9

步骤九,下图1.10,点击“启动安装”。

图 1.10

步骤十,下图1.11,白色代表被选择,选择“Install CentOS 7”进行安装。

图 1.11

步骤十一,下图1.12,选择“简体中文(中国)”。

图 1.12

步骤十二,下图1.13,若使用的是Minimal iso,那么软件选择配置只有最小安装,其他iso建议也选择最小安装。在安装前我们重点是配置分区、网络和主机。

图 1.13

步骤十三,下图1.14,请选择“我要配置分区”,懂得Linux分区是学习Linux安装的基础,也是灵活适配存储要求的重要一步。然后点击“完成”开始自定义

图 1.14

步骤十四,下图1.15,我们采用默认的LVM(logical volume manager) 逻辑卷管理器 ,方便后续磁盘扩展。

点击‘+’号,首先新增/boot分区,作为引导分区存放引导文件,其实目前不需要建立此分区,因为建立100M的/boot分区这种传统是针对老主板的BIOS不能识别大于1024个柱面的磁盘文件,所以分区的时候才会先建立/boot分区便于BIOS读取引导文件。其实100M已经不够当今的Linux引导程序了,因此我设置了256M,建立/boot分区仅是作为老牌Linuxer的习惯性设置。你们也可以选择不建立此分区。

图 1.15

步骤十五,下图1.16,我们对分区类型可以在ext4和xfs两者之间进行选择,作为大数据系统的存储,这两个日志文件系统都满足需要。CentOS7默认使用XFS,文件操作性能上各有千秋。

图 1.16

步骤十六,下图1.17,建立/home分区,我们用总磁盘的30%作为该分区的容量,/home分区主要存储普通用户的应用系统和数据。

图 1.17

步骤十七,下图1.18,建立swap交换分区,8192M,用于物理内存不够的情况下,释放一部分不活跃的内存数据暂存在swap分区上,以便腾出内存空间供给其他运行程序。

swap的大小规则与内存容量相关:内存小于4GB,swap为内存2倍;内存4-8GB,swap等于内存;内存8-64GB,swap为8GB;内存64-256GB,swap为16GB。

也有一些大数据框架对于内存使用所产生的性能影响很大,希望禁用swap,我们可以后期在操作系统中通过配置禁用。

图 1.18

步骤十八,下图1.19,我们直接建立根分区‘/’,

图 1.19

步骤十九,下图1.20,我们可以看到分区一览表,文件系统均采用xfs,根分区分配大约28GB空间。

另外我们也可以根据需要为/var,/opt目录建立独立分区,var目录主要存放系统日志,也是默认Docker文件的存放目录,opt目录常用于存放大数据系统的程序文件以及程序产生的数据。

图 1.20

步骤二十,下图1.21,目前阶段分区仅是规划,一旦点击“接受更改”,分区规划将被执行。

图 1.21

步骤二十一,下图1.22,打开网络连接,由于网络适配器默认是NAT模式,会动态从VWare在物理主机上建立的虚拟网络接口获取IP,即DHCP获取IP方式,我们安装后再修改为静态IP方式,目前仅开启ens33网络接口跟随系统启动。

图中我们可知,物理机的虚拟网络接口IP为:192.168.83.1,也是网关和DNS(通过此连接互联网),虚拟节点IP为192.168.83.4。

主机名我们设置为datanode-1,作为第一个数据节点的名称,若不设置,安装后也可以通过命令修改主机名。最后点击“完成”。

图 1.22

步骤二十二,下图1.23,配置完成后,点击“开始安装”

图 1.23

步骤二十三,下图1.24,在安装过程中,设置ROOT密码,并创建普通用户和密码,我们创建了普通用户:bigdata。

图 1.24

步骤二十四,下图1.25,安装完成后重启,CentOS整个安装过程结束。

图 1.25

3. 系统配置与安装软件

CentOS重启之后,我们可以进行一些列的操作系统配置和安装基础软件,建立一个最基本的大数据可用环境。包括:网络配置、基础工具安装、基础环境配置、Java环境安装。

可以先通过VMware提供的终端输入root账号密码登陆,完成静态网络配置后,建议使用第三方SSH工具远程连接该节点,使用比较方便。

注意使用VMWare模拟终端的时候,使用control+command组合键实现鼠标在模拟窗口的进出。

1)网络配置

编辑ifcfg-ens33网络适配器文件,分配静态IP地址,ens33就是图1.22中“以太网(ens33)”中指定的网络接口名称(也可以通过命令:ip addr,查看自己的IP接口名),若你们安装过程不叫ens33,那么就在/etc/sysconfig/network-scripts/目录下面寻找对应的配置文件。

vi /etc/sysconfig/network-scripts/ifcfg-ens33

BOOTPROTO="dhcp",修改为:“none”,尾部增加IP、网关、DNS等信息。同理192.168.83这是VWMare为我分配的83网段,根据图1.22中IP确定网段(或者通过命令:ip addr,查看自己的IP网段)。我为节点设置的IP地址为:192.168.83.4。

vi操作:按‘a’键进入编辑模式

TYPE="Ethernet"
PROXY_METHOD="none"
BROWSER_ONLY="no"
#BOOTPROTO="dhcp"
BOOTPROTO="none"
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
IPV6INIT="yes"
IPV6_AUTOCONF="yes"
IPV6_DEFROUTE="yes"
IPV6_FAILURE_FATAL="no"
IPV6_ADDR_GEN_MODE="stable-privacy"
NAME="ens33"
UUID="d0dab087-e474-4990-9b31-9eed57590c2a"
DEVICE="ens33"
ONBOOT="yes"
IPADDR=192.168.83.4
PREFIX=24
GATEWAY=192.168.83.1
DNS1=192.168.83.1
ZONE=public

vi操作说明:按'esc'键退出编辑模式,输入':w'回车保存编辑内容,输入':q'回车退出vi编辑,若编辑出错不想保存的情况想退出,输入':q!'回车退出。

最后重启网络

/etc/init.d/network restart

2)基础工具安装

(1)网络工具包

yum install net-tools

一路按'y'键,安装后,例如:通过下面命令查看节点网络情况

netstat -antp

安装nmap-ncat,替代telnet。

yum install nc

例如:我们执行nc命令测一下本机22端口是否通:

nc -v -z -n 192.168.83.4 22

下面信息很快被打印,证明网络端口是连通的。

Ncat: Version 7.50 (  )
Ncat: Connected to 192.168.83.4:22.
Ncat: 0 bytes sent, 0 bytes received in 0.01 seconds.

(2)安装vim,同时会安装perl依赖包。

yum install vim

以后编辑文件可以使用vim命令,获得增强的编辑体验。

(3) 安装系统状态监测

yum intall -y sysstat

可以获得iostat对磁盘的状态监测、mpstata对cpu的状态监测等命令,这些监测对于大数据系统的运维都至关重要。

例如:下图1.26,通过iostat命令,每2秒钟捕获一次磁盘I/O的状态。系统监测的具体详情会在以后章节出现。

iostat -dx 2

图 1.26

3)基础环境配置

(1)禁用selinux,selinux是美国国家安全局搞的一套高度复杂的内核级安全系统,一般管理员都会禁掉,避免影响系统正常运行。编辑/etc/selinux/config文件:

vim /etc/selinux/config

设置SELINUX为disabled。

# This file controls the state of SELinux on the system.
# SELINUX= can take one of these three values:
#     enforcing - SELinux security policy is enforced.
#     permissive - SELinux prints warnings instead of enforcing.
#     disabled - No SELinux policy is loaded.
SELINUX=disabled
# SELINUXTYPE= can take one of three values:
#     targeted - Targeted processes are protected,
#     minimum - Modification of targeted policy. Only selected processes are protected.
#     mls - Multi Level Security protection.
SELINUXTYPE=targeted

编辑保存后,退出VIM,或者执行:reboot命令重启OS,或者

执行下面命令,禁止当前会话中的selinux安全策略。

setenforce 0
getenforce

(2)关闭防火墙firewalld

CentOS7的默认防火墙是firewalld,作为大数据技术学习使用,不建议打开防火墙,原因是各种服务端口特别多,维护起来特别麻烦。

作为云平台的生产环境也可以关闭防火墙,因为网络内部的服务器安全会由厂商云平台的虚拟专有网络以及安全组策略进行保护。

我们可以通过命令查看firewalld是否运行:

systemctl status firewalld

若运行中会显示如下关键信息:

 Active: active (running) since 一 2021-12-20 11:57:09 CST; 8min ago

firewalld关闭和禁用

systemctl stop firewalld
systemctl disable firewalld

4)Java环境安装

当下各种大数据平台的基础语言环境,主要包括了:Java、C/C++、Go、Scala(基于JVM)等,Java是最主要也是最广泛的基础运行环境,一定要安装。

Java版本最好选择1.8版本,目前最新版本为8u311。

下载地址:Java Downloads | Oracle

选择:版本下载。

我们需要将下载的jdk文件上传到该节点。MacOS系统可以通过scp命令在终端执行,windows系统可以安装putty工具,将bin目录加入path环境变量,通过安装后的bin目录的pscp命令在cmd执行,当然也可以通过其他商用ssh工具的sftp功能上传。

scp和pscp命令一致,终端进入jdk文件所在目录。

注:MacOS Safari下载会解压成.tar文件:jdk-8u311-linux-x64.tar

scp  root@192.168.83.4:/root/

进入CentOS节点,我们将jdk文件解压到指定/usr目录:

tar -zxvf  -C /usr

若是MacOS Safari下载解压成.tar文件:jdk-8u311-linux-x64.tar

tar -xvf jdk-8u311-linux-x64.tar -C /usr

编辑/etc/profile文件

vim /etc/profile

最后面新起一行,增加JAVA_HOME,追加PATH

export JAVA_HOME=/usr/jdk1.8.0_311
export PATH=$PATH:$JAVA_HOME/bin

保存配置,并使配置生效:

source /etc/profile

通过命令验证:

java -version
javac -version

终端将输出:​​​

[root@datanode-1 ~]# java -version
java version "1.8.0_311"
Java(TM) SE Runtime Environment (build 1.8.0_311-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.311-b11, mixed mode)
[root@datanode-1 ~]# javac -version
javac 1.8.0_311
[root@datanode-1 ~]#

4. 结尾

至此,CentOS7的安装、配置以及Java环境的安装已经结束,我们可以根据上述配置方法,继续在VMware上安装更多节点,为下一步的大数据系统的分布式环境做好进一步的准备工作。


本文章由公众号「守护石 」出品,版权所有,未经许可,禁止转载

本文发布于:2024-01-29 02:27:26,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170646645112040.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:从零开始   数据   技术   CentOS
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23