一日一技：轻松排雷，爬虫让 Gzip 炸弹变哑炮-益强资讯全景

系统运维: 一日一技：轻松排雷，爬虫让 Gzip 炸弹变哑炮
时间：2010-12-5 17:23:32 作者：应用开发来源：IT科技类资讯查看：评论：0
内容摘要：在昨天的文章《一日一技：反爬虫的极致手段，几行代码直接炸了爬虫服务器》中，我讲到了后端如何使用gzip返回极高压缩率的文件，从而瞬间卡死爬虫。大家都知道我的公众号风格，两头得罪讨好人。昨天我
在昨天的日技让文章《一日一技：反爬虫的极致手段，几行代码直接炸了爬虫服务器》中，轻松我讲到了后端如何使用gzip返回极高压缩率的排雷爬虫文件，从而瞬间卡死爬虫。弹变
大家都知道我的哑炮公众号风格，两头得罪讨好人。日技让昨天我帮了后端，轻松今天我就帮帮爬虫。排雷爬虫作为爬虫，弹变如何避免踩中gzip炸弹?哑炮
最直接的方法，就是日技让把你的爬虫隐藏起来，因为gzip炸弹只能在发现了爬虫以后使用，轻松否则就会影响到正常用户。排雷爬虫只要你的弹变爬虫让网站无法发现，那么自然就不会踩中炸弹。哑炮
如果你没有把握隐藏爬虫，那么，请继续往下看。
查看gzip炸弹的URL返回的Headers，你会发现如下图所示的字段：
你只需要判断resp.headers中，是否有一个名为content-encoding，值包含gzip或deflate的高防服务器字段。如果没有这个字段，或者值不含gzip、deflate那么你就可以放心，它大概率不是炸弹。
值得一提的是，当你不读取resp.content、resp.text的时候，Requests是不会擅自给你解压缩的，如下图所示。因此你可以放心查看Headers。：
那么，如果你发现网站返回的内容确实是gzip压缩后的内容了怎么办呢?这个时候，我们如何做到既不解压缩，又能获取到解压以后的大小?
如果你本地检查一个.gz文件，那么你可以使用命令gzip -l xxx.gz来查看它的头信息：
打印出来的数据中，第一个数字是压缩后的大小，第二个数字是解压以后的源码库大小，第三个百分比是压缩率。这些信息是储存在压缩文件的头部信息中的，不用解压就能获取到。
那么当我使用Requests的时候，如何获得压缩后的二进制数据，防止它擅自解压缩?方法其实非常简单：
import requests
resp = requests.get(url, stream=True)
print(resp.raw.read())
运行效果如下图所示：
此时可以看到，这个大小是压缩后的二进制数据的大小。现在，我们可以使用如下代码，在不解压的情况下，查询到解压缩后的文件大小：
import gzip
import io
import requests
resp = requests.get(url, stream=True)
decompressed = resp.raw.read()
with gzip.open(io.BytesIO(decompressed), rb) as g:
g.seek(0, 2)
origin_size = g.tell()
print(origin_size)
运行效果如下图所示：
打印出来的数字转成MB就是10MB，也就是我们昨天测试的解压后的文件大小。
使用这个方法，我们就可以在不解压的情况下，知道网站返回的亿华云gzip压缩数据的实际大小。如果发现实际尺寸大得离谱，那就可以确定是gzip炸弹了，赶紧把它丢掉。
确保备用电源的三个步骤
 2022ODCC峰会上，华为为数据中心持续进化提供了哪些解题思路

最近更新

2025-10-03 00:30:15
2023年值得关注的十家数据中心企业
2025-10-03 00:30:15
一篇文章带你了解JavaScript随机数
2025-10-03 00:30:15
一篇带你Swift5 字符串（String）操作
2025-10-03 00:30:15
来自读者的面试题：谈谈Spring用到了哪些设计模式？
2025-10-03 00:30:15
十年磨一剑：新华三智能运维工具集的演变之路
2025-10-03 00:30:15
Python图形用户界GUI大解密（下篇）
2025-10-03 00:30:15
每个初级 React 开发人员都会犯的八个错误
2025-10-03 00:30:15
三国演义：责任链模式

热门排行

2025-10-03 00:30:15
不断发展的基础设施：数据中心的现代化
2025-10-03 00:30:15
Python数据结构与算法—优先级队列Queue
2025-10-03 00:30:15
让我们一起学习管道模式，你会了吗?
2025-10-03 00:30:15
.NET Core HttpClient请求异常分析
2025-10-03 00:30:15
Graphcore携手百度飞桨共建全球软硬AI生态
2025-10-03 00:30:15
在 Python 中从头开始迭代本地搜索
2025-10-03 00:30:15
【死磕JVM】看完这篇我也会排查JVM内存过高了就是玩儿！
2025-10-03 00:30:15
前端百题斩——JS中作用域及作用域链的真面目

友情链接