Selenium抓取百度首页TOP6新闻标题链接

阅读: 评论:0

Selenium抓取百度首页TOP6新闻标题链接

Selenium抓取百度首页TOP6新闻标题链接

注意点:

1. 安装chromedriver

在淘宝镜像上下载一个和自己Google浏览器版本一样的Chromedriver, 推荐放在 同一目录下

2.提取标签中的属性内容

    -- .get_attribute('标签属性')

3.提取标签中的text内容

    -- text

4.使用 unquote() 对URL进行解码

    -- link = unquote(link)

from selenium import webdriver
import time
from urllib.parse import  unquote# 计算机中的绝对位置
# "C:Program Files (x86)GoogleChrome"
driver = webdriver.Chrome("C:")
# 请求网站
("")
# 最大化窗口
driver.maximize_window()
# 获取当前访问的url
url = driver.current_url
print('现在的网址是:', url)
# 显示网页源码
html = driver.page_source
# 将源码保存以便观察
with open('html.html','w', encoding='utf-8') as f:f.write(html)
# 获取cookie
# cookie = _cookies()
# cookie = {i['name']:i['value'] for i in cookie}
# print('获取到的cookie:n', cookie)
time.sleep(5)
# 用selenium自带的定位功能定位信息
url = driver.find_elements_by_xpath('//a[@class="title-content c-link c-font-medium c-line-clamp1"]')
# 创建个空字典准备存放信息
item = {}
# 遍历获取到的信息进行清洗
for i in url:item_news = {}# element返回的是一个对象,不能直接在xpath中使用.text方法,要在结尾使用number = i.find_element_by_xpath('.//span').textnews = i.find_element_by_xpath('.//span[@class="title-content-title"]').text# 同理,获取属性标签的时候不能直接//href,要用.get_attribute('href')方法link = i.get_attribute('href')# url解码item_news[news] = unquote(link)item[int(number)] = item_news
# 将字典排序
item_list = sorted(item.items())
# 输出结果
for i in item_list:print('热度排名:', i[0], end='t')print(list(i[1].keys())[0])print(list(i[1].values())[0])
# print('首页新闻', text)
time.sleep(3)

本文发布于:2024-01-30 23:58:20,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170663030323772.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:首页   新闻标题   链接   Selenium
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23