使用requests

阅读：评论：0

使用requests

最近需要综合微信文章内容对微信公众号进行分析，考虑使用python自动对微信公众号文章url列表进行爬取，获取页面显示的纯文字信息。
我们很容易联想到使用requests解析url，获取html，再层层剥离标签，获得纯文字信息，但是不同的微信公众号，甚至同一个公众号下排版可能不同，剥离标签时很难找到统一的规律，因而十分困难。requests_html和requests师出同门，比requests更简单易用，具体可参考这里，使用其中的一个方法可直接将所有标签剥离，再从中获取文字。

from requests_html import HTMLSession
session = HTMLSession()
for url in df_list: #df_list为url列表r = (url)a = split('n') #可去掉html中的所有标签flag = False #使用flag来确定是否为需写入的内容for num in range(len(a)):if '功能介绍' in a[num]: #写入‘功能介绍’以后的内容flag = Truecontinueelif 'var first_sceen__time' in a[num]: #写入‘var first_sceen__time’以前的内容flag = Falseelif flag:with open('文章内容', 'a') as f: #使用追加模式写入文件f.write(a[num])

本文发布于:2024-02-04 12:45:27，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170707550355690.html

上一篇：FPGA板卡组成/工作原理/升级原理

下一篇：学会这些高效采集微信文章的方法，让你成为专业编辑

标签：requests

留言与评论（共有 0 条评论）