让你眼前一亮长见识的反爬虫策略

行痴无畏 04-25 310

前言：

今天我们对“爬虫逆向工程”大体比较看重，小伙伴们都想要了解一些“爬虫逆向工程”的相关资讯。那么小编同时在网摘上网罗了一些有关“爬虫逆向工程””的相关知识，希望兄弟们能喜欢，大家一起来了解一下吧！

大家好，我是你们的章鱼猫。

今天要给大家介绍一个非常牛逼的爬虫和反爬虫的策略，看完觉得让我眼前一亮，同时不得不感叹着都是咋想出来的。小编本人因为之前从事过爬虫和反爬虫相关的工作，所以对这一行也多少有些了解。各个互联网公司其实都少不了有这样的一支团队，尤其是针对竞对，能够及时的了解竞对的情况能够及时的做出相应的调整。而今天推荐的，多少还是有点让小编眼前一亮的，他就是斗鱼关注人数爬取 ── 通过字体来反爬虫。

有人肯定会问，字体怎么用来做反爬虫呀？

我们来看看作者是怎么解释的。

什么是字体反爬？也就是通过自定义字体来自定义字符与渲染图形的映射。比如，字符 1 实际渲染的是 9，那么如果 HTML 中的数字是 111，实际显示就是 999。

在这种技术下，传统的通过解析 HTML 文档获取数据的方式就失效了，因为获取到的数据并不是真实数据。

想明白了是怎么回事了么？如果没有，可能你需要再仔细琢磨一下了。

作者的大概思路是：结合 OCR 来反向解析字体和实际数字的真实映射关系，从而爬取到想要的内容。详细步骤如下：

作者非常的细心通过博客记录了整个心路历程：

更多项目代码详情请查看如下链接。同时欢迎大家留言讨论你都见过哪些牛逼的爬虫或者反爬虫策略？

开源项目地址：

本文地址：http://www.longkongtuishu.com/ca12fDWsLDFQECg.html

标签： #爬虫逆向工程