爬取图片

阅读：评论：0

爬取图片

因为requests请求网页源码不完整，只好用selenium模拟请求，但效率异常慢。

分为网页请求、网页解析、图片保存、循环调用三个主要步骤。

from bs4 import BeautifulSoup
from selenium import  webdriver
import re
import requests
import osname=0
#网页请求
def get_html(url):html=''browser = webdriver.Chrome()(url)doc=browser.page_sourcebrowser.close()doc = BeautifulSoup(doc, 'lxml')for i in doc.select('mentlist'):for item in i.select('p'):img1=str(item.select('a'))img2=str(item.select('img'))html=html+'n'+img1+'n'+img2return html#网页解析
def parse_page(html):list_All = []pattern = repile('src="(.*?)".*?href="(.*?)".*?target', re.S)result = re.findall(pattern, html)for i in result:list_All.append(i[0])list_All.append(i[1])return list_All#图片保存
def save_pictures(list_ALL):global namefor url in list_ALL:try:response = (url)doc = tname += 1with open('D://pictures_crawling//{0}.jpg'.format(str(name)), 'wb') as f:f.write(doc)except:None#循环
def main():start=int(input("开始页码（0-100)："))end=int(input("结束页码(0-100)："))print("图片保存位置：D://")os.mkdir("D://pictures_crawling")for url_section in range(start,end):url=''+str(url_section)+'#comments'html=get_html(url)list_all=parse_page(html)print(list_all)save_pictures(list_all)if __name__=='__main__':main()

慢的已经不想统计时间了，直接把time.per_counter（）删了。

本文发布于:2024-01-28 18:23:20，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/17064374039358.html

上一篇：Python零基础入门二十二之抓取妹子图

下一篇：python爬虫怎么爬取图片

标签：图片 jiandan net

留言与评论（共有 0 条评论）