Kettle:千亿数据仓库整合大数据平台[不学白不学]!!!保证你收益匪浅

阅读: 评论:0

Kettle:千亿数据仓库整合大数据平台[不学白不学]!!!保证你收益匪浅

Kettle:千亿数据仓库整合大数据平台[不学白不学]!!!保证你收益匪浅

Kettle整合大数据平台

Kettle整合Hadoop:

  • Hadoop环境准备
  1. 查看hadoop的文件系统
  • 通过浏览器访问
    node1:50070/
  • 通过终端访问
    hadoop fs -ls / # 查看文件
  1. 在hadoop文件系统中创建/hadoop/test目录
hadoop fs -mkdir -p /hadoop/test  
  1. 在本地创建1.txt
id,name
1,itheima
2,itcast
  1. 上传1.txt到hadoop文件系统的/hadoop/test目录
hadoop fs - /hadoop/test

kettle与hahoop环境整合

1、确保Hadoop的环境变量设置好HADOOP_USER_NAME为root

2、从hadoop下载核心配置文件

sz /export/servers/hadoop-2.6.0-cdh5.14.0/etc/l
sz /export/servers/hadoop-2.6.0-cdh5.14.0/etc/l

文件会被下载到windows的下载目录

3、把hadoop核心配置文件放入kettle目录

data-integrationpluginspentaho-big-data-pluginhadoop-configurationscdh514


4、修改 data-integrationpluginspentaho-big-data-pluginplugin.properties文件

  • 修改plugin.properties
figuration=cdh514

5、 创建Hadoop clusters


Hadoop file input组件

Kettle在Big data分类中提供了一个Hadoop file input 组件用来从hdfs文件系统中读取数据。

需求:

  • 从Hadoop文件系统读取/hadoop/文件,把数据输入到Excel中。
    实现步骤:
    1、拖入以下组件


2、配置Hadoop File Input组件




Hadoop file output组件

Kettle在Big data分类中提供了一个Hadoop file output 组件用来向hdfs文件系统中保存数据

需求:

  • 读取 user.json 把数据写入到hdfs文件系统的的/hadoop/中。

实现步骤:
1、拖入以下组件

2、配置 JSON 输入组件






3、配置Hadoop file output组件


Kettle整合Hive

启动hive:
hive --service hiveserver2 &
hive --service metastore &

初始化数据

  1. 连接hive

  2. 创建并切换数据库

create database test;
use test;
  1. 创建表
create table a(a int,b int
)
row format delimited fields terminated by ',' stored as TEXTFILE;
show tables;
  1. 创建数据文件

1,11
2,22
3,33
  1. 从文件加载数据到表
load data local inpath '/' into table a;
  1. 查询表
select * from a;

kettle与Hive整合

1、从虚拟机下载Hadoop的jar包

sz /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/common/hadoop-common-2.6.0-cdh5.14.0.jar

2、把jar包放置在data-integrationlib目录下

3、重启kettle,重新加载生效

从hive中读取数据

  • hive数据库是通过jdbc来进行连接,可以通过表输入控件来获取数据。
    需求:
  • 从hive数据库的test库的a表中获取数据,并把数据保存到Excel中。
    实现步骤:
    1、设计一下kettle组件结构

    2、配置表输入组件



把数据保存到hive数据库

hive数据库是通过jdbc来进行连接,可以通过表输出控件来保存数据。
需求:

  • 从Excel中读取数据,把数据保存在hive数据库的test数据库的a表。
    实现步骤:

1、设计如下kettle组件结构

2、配置 Excel输入组件



2、配置表输出组件


验证:

执行Hive的HiveSQL语句:

Kettle中可以执行Hive的HiveSQL语句,使用作业的SQL脚本。
需求:

  • 聚合查询a表表中a字段大于1的数据,同时建立一个新表new_a保存查询数据。
    实现步骤:

1、设计如下作业组件结构


本文发布于:2024-01-29 19:21:37,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170652730217701.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:不学   匪浅   收益   数据仓库   数据
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23