能给你带来价值和财富的爬虫，也能给你带来牢狱之灾

明哥玩编程 09-02 500

前言：

现时大家对“爬虫可以看到一个人屏蔽的朋友圈吗”大体比较珍视，姐妹们都想要了解一些“爬虫可以看到一个人屏蔽的朋友圈吗”的相关文章。那么小编也在网上收集了一些有关“爬虫可以看到一个人屏蔽的朋友圈吗””的相关文章，希望咱们能喜欢，我们快快来学习一下吧！

这几天忙着搬家，消息着实有点out，本想继续排序算法话题，但朋友圈被《只因写了一个爬虫，公司200多人被抓！》这一文刷爆，其实我也是一名爬虫er，看完此文隐隐觉得阴风阵阵。

2017年下半年起，互联网不再是红利风口。资金断裂，大规模裁员已经是互联网公司的常态，python的火爆，却带动了大数据、深度学习的发展，原以为此次火爆的红利方向能带来互联网新的崛起，却不曾想到到今年开始，多家数据公司深为爬虫惹了一堆官司。

大多数互联网人对爬虫并不陌生，只说说因反爬虫而引起的是非，文中所提到了是一家叫“巧达数据”的公司，其实很早之前，互联网也有相关故事上演，只是没有上升到法律层面，2008年9月8日，淘宝网宣布封杀百度爬虫，百度只能忍痛遵守爬虫协议。因为一旦破坏协议，用户的隐私和利益就无法得到保障，搜索网站就谈不到人性关怀。所以你在百度上搜不到任何直链淘宝商品的内容。2011年10月25日，京东商城正式将一淘网的搜索爬虫屏蔽，以防止一淘网对其的内容抓取。

2012年8月29日，上线不到十日即轻松登上国内第二大搜索引擎宝座的奇虎360搜索未经授权大量抓取百度、google内容，还记录国内知名网游的后台订单、优惠码等，甚至一些用户的电子邮箱、帐号、密码也被360通过浏览器悄然记录在案，引发激烈的讨论。

爬虫违法吗？

爬虫本身就是打法律的擦边球，非法获取服务商数据并产生商业价值必须违法。

举几个反面例子：

•爬了视频、音乐网站后把视频、音乐直接搬到自己网站上，为用户提供播放服务的。

•爬了小说网站后把小说文本直接搬到自己网站上，为用户提供盗版阅读服务的。

•爬了论坛网站后把所有贴子直接搬到自己网站上，改个名字假装自己是另一个论坛的。

以上行为都违法，只是一般在站点没有做大的时候，不会有人来查你水表。

如果以上内容都不能做，那爬虫还能做什么？

搜索工具，搜索引掣！

在遵循robots协议的前提下，各大搜索公司都通过采集功能进行数据获取，像今日头条这样的公司创业之初也是通过数据采集来增加内容信息的。但是明确一点，数据并不落地到本地，也不会通过自己的服务器进行别人内容的呈现，所以在法律上就规避了这部分的风险。

其二、数据采集也需要在一个合适的频率之下。所有的互联网服务器的每一次被访问都会对服务器产生压力，数据源原有100个窗口，因为被爬，只留下了50个窗口，这种情况就会产生恶性效果，当连接达到100以上时，对方的服务就会因为你的爬虫而崩溃。