Python爬虫

阅读: 评论:0

Python爬虫

Python爬虫


示例网站:名诗词句网
链接:/

一、引用 BeautifulSoup以及requests包

from bs4 import BeautifulSoup
import requests

二、 获取目录页面的章节名称及其地址

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4292.2 Safari/537.36'
}
url = '.html'
page_text = (url=url,headers=headers).text
soup = BeautifulSoup(page_text,'lxml')
a_list = soup.select('.book-mulu > ul >li > a')
# 展示前十条数据
print(a_list[0:10])
[<a href="/book/sanguoyanyi/1.html">第一回·宴桃园豪杰三结义  斩黄巾英雄首立功</a>, <a href="/book/sanguoyanyi/2.html">第二回·张翼德怒鞭督邮    何国舅谋诛宦竖</a>, <a href="/book/sanguoyanyi/3.html">第三回·议温明董卓叱丁原  馈金珠李肃说吕布</a>, <a href="/book/sanguoyanyi/4.html">第四回·废汉帝陈留践位    谋董贼孟德献刀</a>, <a href="/book/sanguoyanyi/5.html">第五回·发矫诏诸镇应曹公  破关兵三英战吕布</a>, <a href="/book/sanguoyanyi/6.html">第六回·焚金阙董卓行凶    匿玉玺孙坚背约</a>, <a href="/book/sanguoyanyi/7.html">第七回·袁绍磐河战公孙    孙坚跨江击刘表</a>, <a href="/book/sanguoyanyi/8.html">第八回·王司徒巧使连环计  董太师大闹凤仪亭</a>, <a href="/book/sanguoyanyi/9.html">第九回·除暴凶吕布助司徒  犯长安李傕听贾诩</a>, <a href="/book/sanguoyanyi/10.html">第一十回·勤王室马腾举义    报父仇曹操兴师</a>
]

三、获取章节的文本内容

with open('三国演义.txt','w',encoding='utf-8') as f:for a in a_list:title = a.stringdetail_url = '' + a['href']page_teat_detail = (url = detail_url,headers=headers).textdetail_soup = BeautifulSoup(page_teat_detail,'lxml')content = detail_soup.find('div',class_='chapter_content').textf.write(title + content)

四、 爬取数据展示

第一章

最后一章

本文发布于:2024-01-28 05:12:45,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/17063899715035.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:爬虫   Python
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23