首页 > 编程札记 > 编程

用Python爬虫帮助出版社的实习生批量爬取古籍图片

阅读：评论：0

某天中午，一个陌生微信加了老夫的微信，说有个需求需要请教。

收到链接后，马上开撸代码。

1、目标网站分析

主页(图)

主页是一个 table 列表，我们实际需要的数据是 全文影像 的页面里的数据。

全文影像(图)

通过点击页面相关链接，老夫发下如下规律：

1、全文影像 中顶部的分页数字指的是书籍有多少册，如下图有17册。

每册链接是：.html

这个链接中 006659 指的是书号，001指的是第一册，以此类推

第二页链接：

.html

第三页链接：

.html

2、全文影像 中底部的分页数据代表每册有多少页，如下图有25页

第一页的链接如下：

.html

以此类推第二页链接如下：

.html

根据上面的规律，我们需要先爬取每本书有多少册，然后再循环爬取每册有多少个图

2、搭建Python环境

1、安装Python3环境，请自行百度。

2、安装virtualenv环境与系统Python环境隔离。

3、安装Scrapy包

pip install -i / scrapy

4、创建 scrapy 项目

scrapy startproject bookspider

5、项目结构如下：

3、编写爬虫代码

1、首先新建 url_spider 爬虫，爬取首页获取每本书的链接，并保存到中

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import scrapyclass urlSpider(scrapy.Spider):name = "urlSpider"def start_requests(self):urls = ['.php']for url in urls:yield scrapy.Request(url=url, callback=self.parse)def parse(self, response):basepath = '/'hrefs = response.xpath("//a[@name='alrp']").xpath("@href").getall()html =''for href in hrefs:path = basepath+href+","html += pathwith open(&#",'w',encoding='utf-8') as wb:wb.write(html)wb.close()

2、新建 book_spider 爬虫，爬取书籍的书册并且下载每册书的图片，为了测试爬虫老夫只选取了一本书来爬取。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import scrapy
import os
import os.path as opath
quest import  urlretrieve
class bookSpider(scrapy.Spider):name = "book"urlStrs = ''def start_requests(self):with open(&#",'r',encoding='utf-8') as f:urlStrs = f.read()f.close()urls = urlStrs.split(',')yield scrapy.Request(url=urls[0],callback=self.parse)def parse(self, response):books = response.xpath("//div[@id='basic']/ul/li/p/text()").getall()iframeUrl = response.xpath("//iframe/@src").get()self.logger.info('---------> iframe url is %s',iframeUrl)info = UrlInfo(iframeUrl)self.logger.info("%s 有 %s 册",info[1],books)path='/Users/lxl/Documents/pythonProject/myspider/book/'+info[1]ists(path) is False:os.makedirs(path)for bookid in books:bookurl = info[0]+'/'+info[1]+'-'&#bookid(bookid)+'/'+info[1]+'-'&#bookid(bookid)+'/assets/basic-html/page-1.html'ists(path+"/"&#bookid(bookid)) is False:os.mkdir(path+"/"&#bookid(bookid))yield scrapy.Request(url=bookurl,callback=self.parsebook,meta={'path':path+"/"&#bookid(bookid)})'''解析每册书的信息，并且开始保存图片'''def parsebook(self,response):numstr = response.xpath("//span[@class='pager']/text()").get()pages = numstr.split("/")[1].strip() # 总页数page = 1while page <= int(pages):pageurl = PageBasePath(response.url)+'/'+'page-'+str(page)+'.html'self.logger.info("处理页面：%s",pageurl)yield  scrapy.Request(url=pageurl,callback =self.pageImg,meta={'path':a['path']})page += 1def pageImg(self,response):url = response.xpath("//div[@id='pageContainer']/img/@src").get()imgurl = response.urljoin(response.xpath("//div[@id='pageContainer']/img/@src").get())self.download(url=imgurl,path&#a['path'])'''解析 iframe 中的 .html返回 （'','006659'）006659-001 006659:代表书号001: 代表册号'''def getUrlInfo(self,url):i = url.rfind("/", 0)urlSub = url[0:i]ii = urlSub.rindex("/", 0)_str = urlSub[ii + 1:]cc = _str.split('-')baseUrl = urlSub[0:ii]arr = (baseUrl, cc[0])return arrdef getbookid(self,bookid):if int(bookid) >= 10 and int(bookid) < 100:return '0'+bookidelse:return '00'+bookiddef getPageBasePath(self,url):i = url.rindex("/", 0)return url[0:i]def download(self,url,path):i = url.rindex("/",0)filename = url[i+1:]ists(path+'/'+filename) is False:urlretrieve(url, path + '/' + filename)self.logger.info("下载图片链接：%s",url)