论文爬取系统

阅读: 评论:0

论文爬取系统

论文爬取系统

项目Github地址

在本专栏中,我将试着利用爬虫技术搭建一个论文爬取系统。在日常的科研生活中,不可避免地需要大量查找和阅读相关领域的文献来寻找idea,如何高效并大规模地搜集相关领域的科研文献至关重要,为了避免额外的人力、节约时间,加之博主是做自然语言处理的,所以这款NLP论文爬取系统应用而生,他可以自动地对满足要求的文献进行爬取,并保存在本地指定位置。相比于人工输入关键词检索,对检索结果逐个点击下载;这个自动化工具,可以帮我们省掉一些费时费力的重复操作,我们完全可以在此期间作其他事情,过一段时间直接查看爬取结果就OK了。

该NLP论文爬取系统基于dblp,一个计算机领域的文献数据库。大体原理如下:

1)构造dblp查询url(包含文献关键词、会议名称、年份等信息),爬取该url对应的页面,并解析出每篇论文的页面url。

2)对每篇论文url对应的页面进行爬取,并解析出每篇论文的pdf对应的下载链接。

3)爬取每篇论文pdf,并保存在本地的指定位置。

目前该NLP论文爬取系统支持NLP全系列会议论文的爬取(包括 ACL、EMNLP、COLING、NAACL、EACL、CoNLL等)以及AAAI和IJCAI会议论文的爬取。接下来的几篇博客我将详细介绍该系统的原理和实现细节以及项目文件组织方式。

 

 

本文发布于:2024-01-31 22:48:18,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170671249731943.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:论文   系统
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23