根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页

阅读: 评论:0

根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页

根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页

在今日头条上输入关键词,爬取与关键词相关的新闻各类信息和内容页

今日头条爬取主要困难如下:

(1)采用下拉翻滚动态加载新的新闻条目,即瀑布流;

(2)内容详情页为动态页面,大部分网页源代码类似字典形式,一部分为带标签的结构化页面。

本文采用两种方式爬取,都将爬取的数据写入到数据库中,主要爬虫代码在JinRiTouTiao.py中,小编在pipelines.py中使用了mysql数据库存储数据,读者可忽略,若使用请配置数据库相关信息。

爬取内容:发布时间、发布者、主题、内容、链接、点赞数、转发数、评论数等。

github链接:

(一)使用scrapy+Selenium +phantomjs爬取:

     爬虫为spiders/JinRiTouTiao.py

     使用请运行startFirst.py

     因为使用的是Selenium +phantomjs,所以无论是静态页面还是动态页面都可以爬取,抓取十分准确,但是速度非常慢,小编爬时是一分钟两个items,可能与小编的网速和电脑配置不高有关。

     使用前需要下载phantomjs,使用方法见.html

  (二)  使用scrapy+urllib+lxml爬取:

      爬虫为toutiao.py

      使用请运行startSecond.py

     推荐使用,爬取速度比较快,爬取数据较为准确。

 

人非圣贤,孰能无过?欢迎大家指正,也欢迎大家有好的想法可以一起交流,小编QQ:2422035338,大家有什么问题或者想法欢迎骚扰。

本文发布于:2024-01-30 18:40:12,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170661121122038.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:头条   关键词   今日   内容   新闻
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23