Hive小练习实现单词统计

阅读: 评论:0

Hive小练习实现单词统计

Hive小练习实现单词统计

su -l hadoop

#输入密码

#新建一个<文档,作为我们的数据文件

输入一些词汇,以"  "为分隔符

hello world 
hello terese
hello myfriend
hello everyone

esc

:wq保存退出

hive#回到hive命令行中

create table text (line string);#创建一个text表

load data local inpath '/home/' into table text;#将数据加载到该表中

select *from text;#查看text表

如何将其中的每行的单词进行统计呢?

先将每行文本切割成单个单词,使用split函数,得到单个单词为元素的数组,使用explode函数将数组中的每个元素生成一行,最后得到hive能直接通过group by处理的形式。

使用split函数将每行的文本切割成单个的单词。

使用explode这个函数的功能是行转列,将得到的数组中的每个元素生成一行。

select explode(split(line,' '))as word from text;

select w.word,count(*) from (select explode(split(line,' '))as word from text) as w group by w.word;

#需要使用group by对数据进行统计。

select w.word,count(*) c from (select explode(split(line,' '))as word from text) as w group by w.word order by c desc limit 3;

#降序取前三

create table count as select w.word,count(*) c from (select explode(split(line,' '))as word from text) as w group by w.word order by c desc limit 3;

#将查询结果存入另一张表中 

select * from count; #查看wordcount表

 

 

 

 

 

 

 

 

 

参考资料:

《Hadoop实战 第2版》陆嘉恒,机械工业出版社;

 

本文发布于:2024-02-02 15:26:15,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170685877244699.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:单词   Hive
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23