首页 > 编程札记 > javascript

hadoop学习笔记(一、hadoop集群环境搭建)

阅读：评论：0

2024年2月3日发(作者：)

Hadoop集群环境搭建

1、准备资料

虚拟机、Redhat6.5、hadoop-1.0.3、jdk1.6

2、基础环境设置

2.1配置机器时间同步

#配置时间自动同步

crontab -e

0 1 * * * root /usr/sbin/ntpdate

#手动同步时间

/usr/sbin/ntpdate

1、安装JDK

安装

cd /home/wzq/dev

./jdk-*****.bin

设置环境变量

Vi /etc/profile/

export JAVA_HOME=/home/wzq/dev/jdk1.6

export PATH=$PATH:$JAVA_HOME/bin

2.2配置机器网络环境

#配置主机名 (hostname)

vi /etc/sysconfig/network

NETWORKING=yes #启动网络

NETWORKING_IPV6=no

HOSTNAME=master #主机名

#修第一台 hostname 为 master

hostname master

#检测

hostname

#使用 setup 命令配置系统环境

setup

#检查ip配置

cat /etc/sysconfig/network-scripts/ifcfg-eth0

# Advanced Micro Devices [AMD] 79c970 [PCnet32 LANCE]

DEVICE=eth0

BOOTPROTO=none

HWADDR=00:0c:29:fc:3a:09

ONBOOT=yes

NETMASK=255.255.255.0

IPADDR=192.168.1.100

TYPE=Ethernet

#重新启动网络服务

/sbin/service network restart

#检查网络ip配置

/sbin/ifconfig

2.3关闭防火墙

2.4配置集群hosts列表

vi /etc/hosts

#添加一下内容到 vi 中

192.168.1.100 master

192.168.1.101 node1 #全分布式用到

192.168.1.101 node2 #全分布式用到

2.5创建用户账号和Hadoop部署目录和数据目录

#创建 hadoop 用户

/usr/sbin/groupadd hadoop

#分配 hadoop 到 hadoop 组中

/usr/sbin/useradd hadoop -g hadoop

#修改hadoop用户密码

Passwd hadoop

#创建 hadoop 代码目录结构

mkdir -p /opt/modules/hadoop/

#修改目录结构权限拥有者为为hadoop

chown -R hadoop:hadoop /opt/modules/hadoop/

2.6生成登陆密钥

#切换到Hadoop 用户下

su hadoop

cd /home/hadoop/

#在master、node1、node2三台机器上都执行下面命令，生成公钥和私钥

ssh-keygen -q -t rsa -N "" -f /home/hadoop/.ssh/id_rsa

cd /home/hadoop/.ssh

#把node1、node2上的公钥拷贝到master上

scp /home/hadoop/.ssh/ id_ hadoop@master:/home/hadoop/.ssh/node1_pubkey

scp /home/hadoop/.ssh/ id_ hadoop@master:/home/hadoop/.ssh/node2_pubkey

#在master上生成三台机器的共钥

cp id_ authorized_keys

cat node1_pubkey >> authorized_keys

cat node2_pubkey >> authorized_keys

rm node1_pubkey node2_pubkey

#吧master上的共钥拷贝到其他两个节点上

scp authorized_keys node1: /home/hadoop/.ssh/

#验证

ssh master

ssh node1

ssh node2

没有要求输入密码登陆，表示免密码登陆成功

3、伪分布式环境搭建

3.1下载并安装 JAVA JDK系统软件

#下载jdk

wget 60.28.110.228/source/package/

#安装jdk

chmod +x

#配置环境变量

vi /etc/profile.d/

export JAVA_HOME=/usr/java/jdk1.6.0_21/

export PATH=$JAVA_HOME/bin: $PATH

#手动立即生效

source /etc/profile

3.2 Hadoop 文件下载和安装

#切到 hadoop 安装路径下

cd /opt/modules/hadoop/

#从下载Hadoop 安装文件

wget /apache-mirror/hadoop/common/hadoop-1.0.3/

#如果已经下载,请复制文件到安装hadoop 文件夹

cp /opt/modules/hadoop/

#解压

cd /opt/modules/hadoop/

tar -xvf

#配置环境变量

vi /etc/profile.d/

export JAVA_HOME=/usr/java/jdk1.6.0_21/

export HADOOP_HOME=/opt/modules/hadoop/hadoop-1.0.3/

export HADOOP_HOME_WARN_SUPPRESS=1

export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH

#手动立即生效

source /etc/profile

3.3配置环境变量

#配置jdk。

# The java implementation to use. Required.

export JAVA_HOME=/usr/java/jdk1.6.0_21/

3.4 Hadoop Common组件配置

#编辑文件

vi /opt/modules/hadoop/hadoop-1.0.3/conf/

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href=""?>

hdfs://master:9000

hadoop namenode 服务器地址和端口，以域名形式

3.5 HDFS NameNode,DataNode组建配置

vi /opt/modules/hadoop/hadoop-1.0.3/conf/

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href=""?>

ation

HDFS数据保存份数，通常是3

3.6 配置MapReduce - JobTracker TaskTracker 启动配置

vi /opt/modules/hadoop/hadoop-1.0.3/conf/

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href=""?>

master:9001

JobTracker rpc主机和端口

3.7格式化文件

#启动切换到hadoop用户

su hadoop

#格式化文件

/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop namenode -format

3.8 Hadoop单机系统,启动执行和异常检查

#启动 Master node ：

/opt/modules/hadoop/hadoop-1.0.3/bin/ start namenode

#启动 JobTracker：

/opt/modules/hadoop/hadoop-1.0.3/bin/ start jobtracker

#启动 secondarynamenode：

/opt/modules/hadoop/hadoop-1.0.3/bin/ start secondarynamenode

#启动 DataNode && TaskTracker：

/opt/modules/hadoop/hadoop-1.0.3/bin/ start datanode

/opt/modules/hadoop/hadoop-1.0.3/bin/ start tasktracker

停止，命令相同，将start换为stop

#出现错误可查看日志

tail -f /opt/modules/hadoop/hadoop-1.0.3/logs/*

#jps列出所有守护进程验证安装成功

3.9 通过界面查看集群部署部署成功

#检查 namenode 和 datanode 是否正常

master:50070/

#检查 jobtracker 和 tasktracker 是否正常

master:50030/

3.10 通过执行 Hadoop pi 运行样例检查集群是否成功

cd /opt/modules/hadoop/hadoop-1.0.3

bin/hadoop jar pi 10 100

#集群正常效果如下

12/07/15 10:50:48 INFO putFormat: Total input paths to process : 10

12/07/15 10:50:48 INFO ent: Running job: job_2_0001

12/07/15 10:50:49 INFO ent: map 0% reduce 0%

12/07/15 10:51:42 INFO ent: map 40% reduce 0%

12/07/15 10:52:07 INFO ent: map 70% reduce 13%

12/07/15 10:52:10 INFO ent: map 80% reduce 16%

12/07/15 10:52:11 INFO ent: map 90% reduce 16%

12/07/15 10:52:22 INFO ent: map 100% reduce 100%

.....................

12/07/15 10:52:28 INFO ent: Virtual memory (bytes) snapshot=2155343872

12/07/15 10:52:28 INFO ent: Map output records=20

Job Finished in 100.608 seconds

Estimated value of Pi is 3.14800000

3.11 安装部署常见错误

主机文件/etc/hosts中主机列表IP错误。物理硬盘的权限均应为hadoop:hadoop，执行启动也应su为hadoop用户。比较常见是出现权限错误导致无法启动故障。

如果遇到服务无法启动。请检查 $HADOOP_HOME/logs/ 目录具体日志情况。

tail -n 100 $HADOOP_HOME/logs/*namenode* #检查namenode 服务日志

tail -n 100 $HADOOP_HOME/logs/*datanode* #检查datanode服务日志

Tail -n 100 $HADOOP_HOME/logs/*jobtracker* #检查jobtracker服务日志

4、全分布式环境搭建

4.1 配置master 集群服务器地址的时候调用

#设置 hadoop secondary node hostname批量启动的地址

#配置secondary的地址

vi /opt/modules/hadoop/hadoop-1.0.3/conf/masters

master

#配置 datanode 和 tasktracker 的地址

vi /opt/modules/hadoop/hadoop-1.0.3/conf/slaves

node1

node2

4.2复制 master hadoop到 node1 node2节点服务器上

#切换到 hadoop 用户下

su hadoop

scp -r /opt/modules/hadoop/hadoop-1.0.3/ node1:/opt/modules/hadoop/

4.3 格式化node1 node2 上的HDFS文件系统

hadoop namenode –format

4.4 批量启动和关闭集群

#全部启动

/opt/modules/hadoop/hadoop-1.0.3/bin/

#全部关闭

/opt/modules/hadoop/hadoop-1.0.3/bin/

4.5 通过界面查看集群部署部署成功

#检查 namenode 和 datanode 是否正常

master:50070/

#检查 jobtracker 和 tasktracker 是否正常

master:50030/

hadoop fs -ls /

hadoop fs -mkdir /data/

5 自动化安装脚本

为加快服务器集群的安装和部署,会使用自动化安装脚本安装。以下为自动化部署脚本样例。脚本中#红色部分具体参考以上配置做具体修改。本脚本里面的安装包用于 64位服务器安装,32位安装包需要单独下载修改。

5.1 master 服务器自动安装脚本

#hadoop_,将以下放入shell脚本中并执行。

vi hadoop_

#!/bin/sh

yum -y install lrzsz gcc gcc-c++ libstdc++-devel ntp #安装gcc 基础环境

echo "0 1 * * * root /usr/sbin/ntpdate " >> /etc/crontab #配置时间同步

/usr/sbin/ntpdate #手动同步时间

/usr/sbin/groupadd hadoop #新增hadoop 群组

/usr/sbin/useradd hadoop -g hadoop #新增Hadoop 用户并绑定到hadoop 群中

#安装依赖包并设置hadoop用户

mkdir -p /opt/modules/hadoop/

mkdir -p /opt/data/hadoop/

chown hadoop:hadoop /opt/data/hadoop/

#配置 /etc/hosts ip 对应主机名称

echo -e "omain localhost

#::omain6 localhost6

#机架1

192.168.1.100thadoopmaster

192.168.1.101thadoopslave

192.168.1.101thadoop-node-101

" > /etc/hosts

#获取服务器外网IP并替换host中127.0.0.1 collect-*

IP=`/sbin/ifconfig eth0 | grep "inet addr" | awk -F":" '{print $2}' | awk -F" " '{print $1}'`

sed -i "s/^127.0.0.1tcollect/${IP}tcollect/g" /etc/hosts

echo "----------------env init finish and prepare su hadoop---------------"

HADOOP=/home/hadoop

cd $HADOOP

#生成密钥

sudo -u hadoop mkdir .ssh

ssh-keygen -q -t rsa -N "" -f $HADOOP/.ssh/id_rsa

Cd$HADOOP/.ssh/ && echo "#此处需要 cat master id_" > $HADOOP/.ssh/authorized_keys

chmod go-rwx $HADOOP/.ssh/authorized_keys #修改文件权限

cd $HADOOP

#下载已经配置好的 Hadoop 集群包

wget 60.28.110.228/source/package/hadoop/hadoop_

mkdir $HADOOP/hadoop

mv *. $HADOOP/hadoop

cd $HADOOP/hadoop

tar zxvf hadoop_

rpm -ivh

rpm -ivh lrzsz-0.12.20-19.x86_

rpm -ivh .x86_

rpm -ivh hadoop-gpl-packaging-0.2.8-1.x86_

tar xzvf

cd lzo-2.06 && ./configure --enable-shared && make && make install

cp /usr/local/lib/liblzo2.* /usr/lib/

cd ..

tar xzvf

cd lzop-1.03

./configure && make && make install && cd ..

chown -R hadoop:hadoop /opt/modules/hadoop/

cp /opt/modules/hadoop/

cd /opt/modules/hadoop/ && tar -xzvf

chown -R hadoop:hadoop /opt/modules/hadoop/

chown -R hadoop:hadoop /home/hadoop

本文发布于:2024-02-03 20:19:16，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170696275651191.html

上一篇：高可用的Hadoop集群架构设计与实施指南

下一篇：Hadoop大数据平台的搭建和使用

标签：安装配置集群部署启动脚本

留言与评论（共有 0 条评论）