首页 > 编程札记 > 编程

记一次CentOS7下python2爬取图片和岗位信息的过程

阅读：评论：0

自从得知了centos里自带python，脑子里整天飞扑棱蛾子，我能用python干点啥

突然想到最近身边的小伙伴们，都在追逐于各色美女

我翻了翻我的电脑，找到了它

一个尘封已久的python程序

我默默的打出了 python --version

啊，久违的python2，真好

上面在扯皮，我们开始，为了能体现操作过程，我在未安装任何python库的电脑上开始

导入这个文件，直接运行，看报错

No module named requests 没有requests模块

这说明啥，说明- -就是没有呗，那咱就安装一个

我默默的输入了 pip install requests

安装pip

先安装扩展源EPEL

yum install epel-release

再安装pip

yum install python-pip

看一下成功了没 pip --version

我骄傲的再次执行 pip install requests

我们来运行一下 python myimage.py

- -

成功了= =可是为什么。。。按道理。。还有很多库没导入啊。。为什么没提示我安装，我另一台机子就必须要安装了好多三方库啊，为什么= =算了。。不管了，舔屏重要

缩略图要足够小，才能让你们不流口水

好了好了，代码会给你们的

import requests
import re
import os
url = '/'
r = (url)
html = r.text
reg = repile('<li>.*?<img src="(.*?)".*?</li>')
srcFront = ''
srclist = re.findall(reg,html)
path = './4kmeinv/'
if not ists(path) :os.makedirs(path)
for i,v in enumerate(srclist):picurl = srcFront+vres = (picurl)with open(path+str(i+1)+'.jpg',"wb") as f :f.t)f.close

爬豆瓣电影明星图片

需要安装bs4

pip install beautifulsoup4

# -*- encoding:utf-8 -*-
# 方法一，使用urllib.urlretrieve() 方法直接将远程数据下载到本地
import requests
from bs4 import BeautifulSoup
import urllib
import os#把豆瓣搜索，明星在地址栏，对应的那个数字，填入下面str（）的括号内
address = str(1050059)# 设置获取网页内容的函数
def getHtml(index,number):# url = "/?type=C&start="+str(index)url = "/"+number+"/photos/?type=C&start=" + str(index)r = (url,{"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"})soup = ,"html.parser")return soup# 设置全局images变量
images = []
# 获取首页的图片数量
imgLen = len(getHtml(0,address).find('ul', attrs={'class': "poster-col3 clearfix"}).find_all('img'))
# 设置处理网页内容的函数
def getImages(pageNum,name,number):#创建文件夹if ists(name):os.rmdir("photos")else:os.mkdir(name)os.chdir(name)global address,images,imgLenfor k in range(pageNum):# 1、存储soup对象eachsoup = getHtml(k*imgLen,number)# 2、获取图片列表父元素imageList = eachsoup.find('ul', attrs={'class': "poster-col3 clearfix"})# 3、获取所有image#     通过extend方法，还是一个list，如果用append会是多个list，下面的循环的就要额外处理了d(imageList.find_all('img'))#3、用循环处理所有li内的具体内容for i in range(len(images)):try:#获取图片后缀名，防止真实网址图片为png，jpg，gif等格式suffix = images[i]['src'][-3:]image_name = str(i+1)+'.'+suffixurllib.urlretrieve(images[i]['src'],image_name)except Exception:print('存储有异常')return#      爬几页 文件夹名
getImages(1,'bingbing',address)

爬取51job岗位信息

需要安装xlwt

pip install xlwt

# -*- encoding:utf-8 -*-
import urllib2
import re
import xlwt#获取源码
def get_content(page,job_name):url = ",000000,0000,00,9,99,"+job_name+",2,"+str(page)+".html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="response = urllib2.urlopen(url)html = ad().decode('gbk').encode('utf-8')return html
# 获取满足正则表达式的爬取目标
def get(html):pattern = repile(r'class="t1 ">.*? <a target="_blank" title="(.*?)".*? <span class="t2"><a target="_blank" title="(.*?)".*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*? <span class="t5">(.*?)</span>',re.S)#匹配换行符result = re.findall(pattern,html)return result
#设置全局的datalist存储爬取的目标
datalist = []
#调用方法获取爬取内容存入datalist
def savaDataToDatalist(page_num,job_name):for page in range(1,page_num):html = get_content(page,job_name)for i in get(html):data = []for j in range(0,5):data.append(i[j])datalist.append(data)return
# 将数据保存到excel中
def saveDataToXLS(savepath):book = xlwt.Workbook(encoding='utf-8', style_compression=0)sheet = book.add_sheet('51job搜索的职位', cell_overwrite_ok=True)col = (u'职位', u'公司名称', u'公司地点',u'薪资',u'发布时间')for i in range(0, 5):sheet.write(0, i, col[i])  # 列名i=0for i in range(0,len(datalist)):data = datalist[i]for j in range(0,5):sheet.write(i+1,j, data[j])  # 数据book.save(savepath)  # 保存returndef savaAll(job_name,page_num,saved_file_name):savaDataToDatalist(page_num,job_name)if('xls' in saved_file_name):saveDataToXLS(unicode(saved_file_name,'utf8'))returnsavaAll('大数据',3,'大数据职位信息.xls')

本文发布于:2024-02-01 04:02:36，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170673135833711.html

上一篇：非常好的单体到分布式的演变之路！

下一篇：这 IDEA 超全优化设置，提升，效率，属实牛逼！

标签：岗位过程图片信息

留言与评论（共有 0 条评论）