模拟登陆古诗文网(含验证码识别)

阅读: 评论:0

模拟登陆古诗文网(含验证码识别)

模拟登陆古诗文网(含验证码识别)

准备

  • 超级鹰平台识别模块(我已导入成yzm模块)
  • 初级爬虫获取网页能力
  • lxml数据解析
  • session对象使用

确定登录URL ,获取载荷信息


注意 前两个参数可在首页源码中搜索到

源码

import requests
import yzm
from lxml import etreesession=requests.Session() #创建session对象headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.109 Safari/537.36'
}url='.aspx?from=.aspx'
page_text&#(url=url,headers=headers).content
tree=etree.HTML(page_text)
code_img_src=''+tree.xpath('//*[@id="imgCode"]/@src')[0]
img_data&#(url=code_img_src,headers=headers).content
with open('./code.jpg','wb')as fp:fp.write(img_data)
code_text&#_code('code.jpg',1004)
code0=code_text['pic_str']
print(code0)#识别结果为: 
# {'err_no': 0, 'err_str': 'OK', 'pic_id': '8170914228036700005', 'pic_str': 'e3ws', 'md5': '57a53436632876e16c8fca496705b07a'}
__VIEWSTATE = tree.xpath('//*[@id="__VIEWSTATE"]/@value')[0]
__VIEWSTATEGENERATOR = tree.xpath('//*[@id="__VIEWSTATEGENERATOR"]/@value')[0]
data={'__VIEWSTATE':__VIEWSTATE,'__VIEWSTATEGENERATOR':__VIEWSTATEGENERATOR,'from':'.aspx','email':'你的登录号码','pwd':'你的密码','code':code0,'denglu':'登录'
}
response=session.post(url=url,headers=headers,data=data)
print(response.status_code)# 考虑1:动态变化的请求参数
#   通常会隐藏在当前对应的前端页面的代码中detail_url='.aspx?from=http%3a%2f%2fso.gushiwen%2fuser%2fcollect.aspx'
detail_page_text = session.post(url=detail_url,headers=headers,data=data).text
with open('a.html','w',encoding='utf-8') as fp:fp.write(detail_page_text)

本文发布于:2024-02-03 01:10:39,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170689384147661.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:古诗   验证码   文网
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23