最近找工作看到很多大数据处理的基本都是要求Hadoop、MapReduce之类的,其中如果有熟悉Storm、Spark的会有加分。Storm、Spark属于大数据实时处理的框架,MapReduce是属于离线的、非实时的。这几天都在看Storm,(Spark之前有看过,不过当时耽搁了,不是很深入,之前看的是《Fast Data Processing with Spark》)想记录一下自己的学习过程,希望可以和同学们共同探讨。。。
看一个技术框架,或许首先应该先google下,看下别人写的博客,技术文章等,大概了解下,如果英语过关,可以直接看官网文档(不过个人感觉storm的文档有点不是很好,根据其提供的例子弄了好些天才搞定,当然或许是自己能力太差也说不定);然后就是搭建集群(Storm集群、当然单机也可以学习的);运行自己的第一个“Word Count”程序(大数据的“hello world”?);结合一些讲原理的书籍或者博客看WordCount的代码,对照理解;尝试自己写代码,并运行,总结经验;之后就是慢慢的积累过程了!(以上纯属个人观点)
Storm简介:.html , 一篇阿里的技术博客,感觉不错(有一定Hadoop基础看着理解会好点)。里面讲到了Storm记录级容错的原理,看的不是很明白(能力不够呀!)。
一、Storm安装配置
首先参考了官网的配置:.html ,跑着有问题。接着,网上找了一篇:/,这个感觉靠谱点(我就是参考这个配置的)。
集群配置:
node101 : CentOS6.5 64bit、2G 内存、nimbus、ui、zookeeper(虚拟机)
node102 : CentOS6.5 64bit、1G 内存、supervisor(虚拟机)
node103 : CentOS6.5 64bit、1G 内存、supervisor(虚拟机)
版本: Storm:0.9.3 、Zookeeper:zookeeper-3.4.6
1. 安装并启动Zookeeper
1)下载Zookeeper,解压到/opt文件夹(这个文件夹可以自定义)
2)进入解压后的bin目录执行./zkServer.sh start ;
3)查看是否启动:
[root@node101 bin]# ./zkServer.sh status
JMX enabled by default
Using config: /opt/zookeeper-3.4.6/bin/../conf/zoo.cfg
Mode: standalone
2. 安装并配置Storm:
(jdk不用说了,自己安装吧)
1)下载ZeroMQ、JZMQ并安装
下载地址:.1.7-1.el6.x86_64.rpm 、.michael-noll/rpms/jzmq-2.1.0.el6.x86_64.rpm。 这两个rpm官网没有说要安装,不安装的话,后面可能会有问题。(我现在都不清楚后面出现的问题是否是因为这个没有安装)
yum install zero*
yum install
本文发布于:2024-02-05 03:50:30,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170723390062812.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |