首页 > 编程札记 > 编程

Kettle:千亿数据仓库整合大数据平台[不学白不学]！！！保证你收益匪浅

阅读：评论：0

Kettle整合大数据平台

Kettle整合Hadoop:

Hadoop环境准备

查看hadoop的文件系统

通过浏览器访问
node1:50070/
通过终端访问
hadoop fs -ls / # 查看文件

在hadoop文件系统中创建/hadoop/test目录

hadoop fs -mkdir -p /hadoop/test

在本地创建1.txt

id,name
1,itheima
2,itcast

上传1.txt到hadoop文件系统的/hadoop/test目录

hadoop fs - /hadoop/test

kettle与hahoop环境整合

1、确保Hadoop的环境变量设置好HADOOP_USER_NAME为root

2、从hadoop下载核心配置文件

sz /export/servers/hadoop-2.6.0-cdh5.14.0/etc/l
sz /export/servers/hadoop-2.6.0-cdh5.14.0/etc/l

文件会被下载到windows的下载目录

3、把hadoop核心配置文件放入kettle目录

data-integrationpluginspentaho-big-data-pluginhadoop-configurationscdh514

4、修改 data-integrationpluginspentaho-big-data-pluginplugin.properties文件

修改plugin.properties

figuration=cdh514

5、创建Hadoop clusters

Hadoop file input组件

Kettle在Big data分类中提供了一个Hadoop file input 组件用来从hdfs文件系统中读取数据。

需求：

从Hadoop文件系统读取/hadoop/文件，把数据输入到Excel中。
实现步骤:
1、拖入以下组件

2、配置Hadoop File Input组件

Hadoop file output组件

Kettle在Big data分类中提供了一个Hadoop file output 组件用来向hdfs文件系统中保存数据

需求：

读取 user.json 把数据写入到hdfs文件系统的的/hadoop/中。

实现步骤：
1、拖入以下组件

2、配置 JSON 输入组件

3、配置Hadoop file output组件

Kettle整合Hive

启动hive：
hive --service hiveserver2 &
hive --service metastore &

初始化数据

连接hive
创建并切换数据库

create database test;
use test;

创建表

create table a(a int,b int
)
row format delimited fields terminated by ',' stored as TEXTFILE;
show tables;

创建数据文件


1,11
2,22
3,33

从文件加载数据到表

load data local inpath '/' into table a;

查询表

select * from a;

kettle与Hive整合

1、从虚拟机下载Hadoop的jar包

sz /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/common/hadoop-common-2.6.0-cdh5.14.0.jar

2、把jar包放置在data-integrationlib目录下

3、重启kettle，重新加载生效

从hive中读取数据

hive数据库是通过jdbc来进行连接，可以通过表输入控件来获取数据。
需求：
从hive数据库的test库的a表中获取数据，并把数据保存到Excel中。
实现步骤：
1、设计一下kettle组件结构

2、配置表输入组件

把数据保存到hive数据库

hive数据库是通过jdbc来进行连接，可以通过表输出控件来保存数据。
需求：

从Excel中读取数据，把数据保存在hive数据库的test数据库的a表。
实现步骤：

1、设计如下kettle组件结构

2、配置 Excel输入组件

2、配置表输出组件

验证：

执行Hive的HiveSQL语句：

Kettle中可以执行Hive的HiveSQL语句，使用作业的SQL脚本。
需求：

聚合查询a表表中a字段大于1的数据，同时建立一个新表new_a保存查询数据。
实现步骤：

1、设计如下作业组件结构

本文发布于:2024-01-29 19:21:37，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170652730217701.html

上一篇：Node.js静态文件服务器实战（接触nodejs开发中比较实用的部分技巧，获益匪浅）

下一篇：C语言在个位找出是6的,C语言必看几个例题，懂后获益匪浅

标签：不学匪浅收益数据仓库数据

留言与评论（共有 0 条评论）