从因特网上搜索Web页,用wget获取网页,处理网页html文本数据,从中提取出当前时间点北京各监测站的PM2.5浓度,输出如下CSV格式数据:
2020-03-09 13:00:00,海淀区万柳,73
2020-03-09 13:00:00,昌平镇,67
2020-03-09 13:00:00,奥体中心,66
2020-03-09 13:00:00,海淀区万柳,73
2020-03-09 13:00:00,昌平镇,73
2020-03-09 13:00:00,奥体中心,75
查看所获得的beijing.html文件的内容,如下所示:
由于网站的内容都是用标签作为前后缀,所以可以使用sed命令将标签<>替换为空格。
编辑之后得到的文件信息如下所示,可见这一步已提取出所有以汉字和数字来描述的关键信息。
编写awk文件如下:
该操作之后得到如下结果,说明日期已经被提取出来了!
修改awk文件如下:
如果用“m”来提取的话,会出现如下内容,多出来了一条无用的信息,因为这一行也含有“m”。这是我们不想看到的情况。
所以,选择用“g”来提取试试。如下图所示,没有多余的行,因此用“g”最为合适。
本文发布于:2024-02-04 20:25:36,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170715787759321.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |