Python带你看文献—xpath抓取知网文献!

阅读：评论：0

在做学术的道路上，陪伴我们的不是对象（可能没有），不是家人（可能不在身边），甚至不是头发（日减稀疏），始终不离不弃的肯定是浩如烟海的论文。查阅文献常用的网站当属知网，为了实现快速翻阅、应用有类似纸质书体验的效果，我们今天就用Python来翻一翻知网上顶级期刊的文献目录。

一、案例简介

我们进入中国知网网站，点击出版物检索，选择期刊导航，输入《会计研究》。

就进入了目标网址：;pykm=KJYJ。我们的目标是爬取2018年全年的文章题目和作者，对于没有作者的文章题目，如征文启事，则予以删除。我们先对单期期刊进行处理，再将其扩展到12期期刊。

一、案例简介

我们进入中国知网网站，点击出版物检索，选择期刊导航，输入《会计研究》。

二、案例实操

（一）单个期刊

我们打开开发者模式，选择network，在name中寻找到网页信息，发现其网页获取方式是post，接着我们模拟人工浏览网页的行为写入headers对应的信息：url，request headers和querystring parameters。

import requests #引入requests库爬取网页代码import json #引入json库处理data列表中的内容 url=';issue=01&pykm=KJYJ&pageIdx=0&pcode=CJFD' headers={ 'Accept': '*/*', 'Accept-Encoding':'gzip, deflate, br', 'Accept-Language':'zh-CN,zh;q=0.9', 'Connection':'keep-alive', 'Content-Length':'0', 'Cookie':'Ecp_notFirstLogin=lGQkVH; Ecp_ClientId=7190918101000734970;cnkiUserKey=bb2d2b7c-5a96-65a9-7fa0-e25390f23ca9;LID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0&

本文发布于:2024-02-04 21:17:13，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170716611359686.html

上一篇：如何在家下载知网文献

下一篇：求救我的zotero没办法下载知网文献

标签：文献你看知网 Python xpath

留言与评论（共有 0 条评论）