Python爬虫之数据提取概述
Python爬虫之数据提取概述
数据提取概述
知识点
了解 响应内容的分类
了解 xml和html的区别
在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据
结构化的响应内容
json字符串
可以使用re、json等模块来提取特定数据
json字符串的例子如下图
xml字符串
可以使用re、lxml等模块来提取特定数据
xml字符串的例子如下
Everyday ItalianGiada De Laurentiis
2005
30.00
Harry PotterJ K. Rowling
2005
29.99
Learning XMLErik T. Ray
2003
39.95
非结构化的响应内容
html字符串
可以使用re、lxml等模块来提取特定数据
html字符串的例子如下图
知识点:了解 响应内容的分类
要搞清楚html和xml的区别,首先需要我们来认识xml
2.1 认识xml
xml是一种可扩展标记语言,样子和html很像,功能更专注于对传输和存储数据
Everyday ItalianGiada De Laurentiis
2005
30.00
Harry PotterJ K. Rowling
2005
29.99
Learning XMLErik T. Ray
2003
39.95
上面的xml内容可以表示为下面的树结构:
2.2 xml和html的区别
二者区别如下图
html:
超文本标记语言
为了更好的显示数据,侧重点是为了显示
xml:
可扩展标记语言
为了传输和存储数据,侧重点是在于数据内容本身
知识点:了解 xml和html的区别
2.3 常用数据解析方法
据,侧重点是为了显示
xml:
可扩展标记语言
为了传输和存储数据,侧重点是在于数据内容本身
知识点:了解 xml和html的区别
2.3 常用数据解析方法
Python爬虫之数据提取概述相关教程
本文发布于:2024-02-03 08:23:04,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170691978449820.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |