反爬与反反爬-创锋一号

反爬虫

限制手段：请求限制、拒绝响应、客户端身份验证、文本混淆和使用动态渲染技术

身份识别反爬虫

验证请求头信息、验证请求参数、使用验证码等

爬虫行为反爬虫

对IP进行限制、使用蜜罐获取IP、假数据等

数据加密反爬虫

自定义字体、数据图片、编码格式等

爬虫与反爬虫的攻与防

爬虫	反爬虫
代码向目标网站发起网络请求、爬取网站数据	监控异常流量，请求并非来自浏览器，直接拒绝
模拟浏览器UA，欺骗目标网站	监控到大量请求都来自一个浏览器标识，限制访问频率
使用随机IP或分布式对目标网站发起请求	在一些入口或表单增加验证码，区别用户和爬虫
简单验证码识别，复杂验证码接入打码平台	查看网站信息时要登录
注册多个账号	通过混淆规则对网站的信息进行混淆，增加爬虫抓取的难度
当解密成本高，采用屏幕截图的方式	根据自动化测试框架或浏览器的特征区别用户和爬虫
成本太高，有可能放弃爬取	成本太高，无法完全限制爬取

基于身份识别反爬和解决思路

Headers反爬，

通过User-agent字段，解决方案：使用随机的User-agent

通过cookie字段，解决方案：登录网站后复制cookie，请求时携带上。加密的cookie：注册多个账号请求登录后数据或破解JS生成cookie逻辑

通过Referer：拿到字段后，加入请求头

基于请求参数反爬

仔细分析抓到的包，搞清楚请求之间的联系

验证码发爬

Pytesseract（图像识别工具）或者商业打码平台

一、Pytesseract

tesseract引擎下载 # 安装时记住引擎安装路径

语言包下载

安装PIL和pytesseract

pip install pillow #一个python的图像处理库，pytesseract依赖

pip install pytesseract

简单应用