在进入正题之前,我们先复习一个关于requests模块的相关知识点:
requests中解决编码的三种方法:
①t
类型:bytes
解码类型:没有指定
如何修改编码方式:t.decode()
②t.decode()
类型:str
解码类型:解码成python文本的字符串类型
如何修改编码方式:t.decode(encoding="utf-8")
③
类型:str
解码类型:根据HTTP头部对响应的编码作出有根据的推测,推测的文本编码。
如何修改编码方式:ding="gbk"
所以,综上所述,最好的方式就是使用t.decode()来获取响应的html页面。
那么现在,回到正题:
我们做爬虫的时候,一定要学会伪装自己。
因为一旦有一天,你不采取措施,但是你需求的量多,频率也快,是很容易被识别为爬虫的,从而对你拦截处理。
思路很简单,就是我一个人模拟多个人,那么从人的属性分析:
浏览器名称,ip地址,cookie和session信息。
所以我们写爬虫的时候,要准备一堆User-Agent,一堆ip地址和一堆cookie
本文发布于:2024-01-31 21:46:08,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170670877131569.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |