反爬与反反爬
2026/6/26 19:36:49 网站建设 项目流程

反爬虫

限制手段:请求限制、拒绝响应、客户端身份验证、文本混淆和使用动态渲染技术

身份识别反爬虫

验证请求头信息、验证请求参数、使用验证码等

爬虫行为反爬虫

对IP进行限制、使用蜜罐获取IP、假数据等

数据加密反爬虫

自定义字体、数据图片、编码格式等

爬虫与反爬虫的攻与防

爬虫反爬虫
代码向目标网站发起网络请求、爬取网站数据监控异常流量,请求并非来自浏览器,直接拒绝
模拟浏览器UA,欺骗目标网站监控到大量请求都来自一个浏览器标识,限制访问频率
使用随机IP或分布式对目标网站发起请求在一些入口或表单增加验证码,区别用户和爬虫
简单验证码识别,复杂验证码接入打码平台查看网站信息时要登录
注册多个账号通过混淆规则对网站的信息进行混淆,增加爬虫抓取的难度
当解密成本高,采用屏幕截图的方式根据自动化测试框架或浏览器的特征区别用户和爬虫
成本太高,有可能放弃爬取成本太高,无法完全限制爬取

基于身份识别反爬和解决思路

Headers反爬,

通过User-agent字段,解决方案:使用随机的User-agent

通过cookie字段,解决方案:登录网站后复制cookie,请求时携带上。加密的cookie:注册多个账号请求登录后数据或破解JS生成cookie逻辑

通过Referer:拿到字段后,加入请求头

基于请求参数反爬

仔细分析抓到的包,搞清楚请求之间的联系

验证码发爬

Pytesseract(图像识别工具)或者 商业打码平台

一、Pytesseract

tesseract引擎下载 # 安装时记住引擎安装路径

语言包下载

安装PIL和pytesseract

pip install pillow #一个python的图像处理库,pytesseract依赖
pip install pytesseract

简单应用

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询