龙空技术网

网络爬虫的利与弊

天边小铺 167

前言:

而今看官们对“各类爬虫软件有哪些优势和劣势”大约比较关切,朋友们都需要学习一些“各类爬虫软件有哪些优势和劣势”的相关内容。那么小编同时在网络上网罗了一些有关“各类爬虫软件有哪些优势和劣势””的相关内容,希望小伙伴们能喜欢,同学们一起来了解一下吧!

回顾

“51信用卡”被查事件,让大数据风险控制领域处在了风口浪尖上, 51信用卡委托外包催收公司催收欠贷,在外包公司通过恐吓、滋扰等软暴力催收的过程中,51信用卡技术团队涉嫌利用爬虫技术,在互联网上帮助催债人违规获取了欠款人的个人通讯录、地址定位等敏感信息。

而在这个事件中有一个重要的角色-爬虫。

什么得网络爬虫

所谓网络爬虫,即一种按照一定规则,自动抓取互联网信息的程序。说得更为形象一点爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,再把看到的信息背回来。就像一只虫子在一幢大楼里不知疲倦地爬来爬去。在大数据风控行业中,以网络爬虫获取信息数据的做法最为盛行,而违规使用、买卖爬虫得来的数据则是导致数据泄露、隐私泄露等一系列问题的根源。

网络爬虫是否违法

“爬虫技术本身是没有法律性可言的,它是纯技术的这么一个手段,但是如果把爬虫技术运用到了侵害公民个人信息,特别是关于定位关于你的其他的在互联网上出现的隐私,把它拼起来,拼成一个可识别到个人的身份信息的时候,这个技术就是被滥用的范围,这涉及到一个侵害公民个人信息犯罪的范围。”

“爬虫技术”主要分为两类,一类是“善意爬虫”,另一类是“恶意爬虫”,前者是指只能爬取公开发布的数据信息,比如企业的工商信息、公开社交平台信息等。

我们每天使用的百度和谷歌这样的搜索引擎,其实就是利用了这种爬虫技术:每天放出无数爬虫对全网的网页扫一遍,把他们的信息抓取回来,然后供大家搜索查阅,用户们也很乐意。而各个被扫的网站也大都很乐意如此,因为用户在搜索引擎点击链接后,流量会引回被抓取网站,某方面来说是一个双赢。所以这一类属于“善意爬虫”。

另一类“恶意爬虫”尤为体现在春节期间。大家可还记得当年12306 上线王珞丹和白百何的“史上最坑图片验证码”。当时网友调侃:“这要是脸盲可能都回不了家”。

据报道过的公开数据显示,12306最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。这还是加上验证码防护之后的数据。因爬虫只会简单的机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外,所以12306此举也是出于无奈。

不管公司还是和人“爬取”数据都应该遵纪守法,开爬之前好好熟悉下法律规定。

《刑法》第285条,非法获取计算机信息系统数据罪。最高处七年有期徒刑。

《刑法》第286条,破坏计算机信息系统罪。最高处五年以上。比如为了抓取数据,破解登陆密码,反编译APP。

《网络安全法》,倒卖隐私数据链条上的一环。(你把抓取的数据倒卖给坏人,坏人拿数据做了坏事,你就是这其中一环。)

引用网上很经典的一句话:小爬怡情,大爬over。

标签: #各类爬虫软件有哪些优势和劣势