Kettle整合Hadoop:
node1:50070/
hadoop fs -ls / # 查看文件
hadoop fs -mkdir -p /hadoop/test
id,name
1,itheima
2,itcast
hadoop fs - /hadoop/test
1、确保Hadoop的环境变量设置好HADOOP_USER_NAME为root
2、从hadoop下载核心配置文件
sz /export/servers/hadoop-2.6.0-cdh5.14.0/etc/l
sz /export/servers/hadoop-2.6.0-cdh5.14.0/etc/l
文件会被下载到windows的下载目录
3、把hadoop核心配置文件放入kettle目录
data-integrationpluginspentaho-big-data-pluginhadoop-configurationscdh514
4、修改 data-integrationpluginspentaho-big-data-pluginplugin.properties
文件
figuration=cdh514
5、 创建Hadoop clusters
Kettle在Big data分类中提供了一个Hadoop file input 组件用来从hdfs文件系统中读取数据。
需求:
2、配置Hadoop File Input组件
Kettle在Big data分类中提供了一个Hadoop file output 组件用来向hdfs文件系统中保存数据
需求:
实现步骤:
1、拖入以下组件
2、配置 JSON 输入组件
3、配置Hadoop file output组件
启动hive:
hive --service hiveserver2 &
hive --service metastore &
连接hive
创建并切换数据库
create database test;
use test;
create table a(a int,b int
)
row format delimited fields terminated by ',' stored as TEXTFILE;
show tables;
1,11
2,22
3,33
load data local inpath '/' into table a;
select * from a;
1、从虚拟机下载Hadoop的jar包
sz /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/common/hadoop-common-2.6.0-cdh5.14.0.jar
2、把jar包放置在data-integrationlib目录下
3、重启kettle,重新加载生效
hive数据库是通过jdbc来进行连接,可以通过表输出控件来保存数据。
需求:
1、设计如下kettle组件结构
2、配置 Excel输入组件
2、配置表输出组件
验证:
Kettle中可以执行Hive的HiveSQL语句,使用作业的SQL脚本。
需求:
1、设计如下作业组件结构
本文发布于:2024-01-29 19:21:37,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170652730217701.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |