Requests、Ixml
灵活,简单
conda install scrapy
scrapy startproject 新工程名
scrapy genspider 爬虫名 start url
修改parse()方法,在控制台输出文本
scrapy crawl 爬虫名
属性或方法 | 作用 |
---|---|
url | 当前返回数据所对应的页面url |
status | http请求状态码 |
meta | 用于request与response之间的数据传递 |
body | 返回页面html源码、如果纯正则表达式匹配数据,需要获得页面html源码 |
xpath() | 使用xpath选择器解析网页 |
css() | 使用css选择器解析网页 |
表达式 | 描述 |
---|---|
nodename | 选取节点名 |
/ | 从根节点选取 |
// | 选取所有符合条件的节点,而不考虑他们的位置 |
. | 选取当前节点 |
… | 选取当前节点的父节点 |
@ | 选取属性 |
路径表达式 | 结果 |
---|---|
/bookstore/book[1] | 选取属于bookstore子元素的第一个book元素 |
//title[@lang] | 选取所有拥有名为lang的属性的title元素 |
//title[@lang=‘eng’] | 选取所有拥有值为eng的lang属性的title元素 |
路径表达式 | 结果 |
---|---|
/bookstore | 选取根元素booksotre |
/bookstore/book | 选取属于bookstore的子元素的所有book元素 |
//book | 选取所有book子元素,而不管他们在文档中的位置 |
/bookstore/book | 选取属于bookstore元素的后代的所有book元素,而不管他们位于bookstore之下的什么位置 |
//@lang | 选取名为lang的所有属性 |
/bookstore/book/text() | 选取属于bookstore的子元素的所有book元素的文本 |
本文发布于:2024-02-02 17:33:21,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170686640245358.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |