龙空技术网

数据爬虫的是与非:技术中立但恶意爬取频发,侵权边界在哪?

南方都市报 795

前言:

眼前大家对“微博爬虫数据分析”大致比较着重,同学们都想要分析一些“微博爬虫数据分析”的相关文章。那么小编同时在网摘上汇集了一些有关“微博爬虫数据分析””的相关资讯,希望小伙伴们能喜欢,姐妹们快快来学习一下吧!

从新浪微博诉脉脉不正当获取用户数据案,到领英与hiQ Labs的数据之争……相关司法案例的不断出现,让数据爬取问题成为关切。

10月23日,长三角数据合规论坛(第三期)暨数据爬虫的法律规制研讨会在上海举行。围绕爬虫技术对数字产业影响、爬取他人数据的法律边界及规制等话题,多位法律专家、司法工作者和企业代表展开了研讨。

大数据时代,随着数据价值凸显,数据爬虫的应用日益广泛。多位专家在会上提到,爬虫技术本身是中立的,但爬虫技术的应用往往带有目的,需要考量抓取行为及数据使用是否具有正当性。

“凶猛”的网络爬虫,增加网站运营负担

从技术角度看,爬虫是通过程序模拟人们上网浏览网页或使用App行为,从而高效抓取网络信息的过程。对于这项技术,并非所有人都欢迎。

欧莱雅中国数字化负责人刘煜晨在研讨会上表示,大多数网站拒绝爬虫访问,既有商业利益考量,也出于自身网站运营安全考虑。爬虫自动持续且高频地访问,会导致网站服务器负载飙升,使得一些中小平台面临网站打不开、网页加载缓慢,甚至直接瘫痪的风险。因此,“网站经营者面对‘凶猛’的网络爬虫时往往苦不堪言。”

虽然网站可以采取相应策略或技术手段,防止被爬取数据,但爬虫者也有更多技术手段来反制,即所谓的反反爬策略。据刘煜晨介绍,反爬和爬取技术一直在迭代更新——爬取不是问题,关键在于愿不愿意爬和多难爬。通常,越是大厂的App或者网站越难爬,其反爬机制较多。

小红书法务负责人曾翔观察发现,恶意爬虫案例经常发生在内容平台和电商平台。在内容上更多被爬取视频、图片、文字、用户行为数据等,在电商领域更多被爬取商家信息和商品信息。

“一般而言,内容平台会约定相关内容的知识产权应当归发布者或发布者与平台共同所有。未经同意爬取的,涉嫌侵犯知识产权。”曾翔表示,平台通过投入激发创作者的创造力,如果有人利用爬虫技术很轻易地获取内容,并进行抄袭、改编,这损害平台利益。

提及网络爬虫,Robots协议是绕不开的话题——它的全称是“网络爬虫排除标准”,网站通过Robots协议明确警示搜索引擎哪些页面可以爬取,哪些页面不能爬取。该协议也被行业称为搜索领域的“君子协定”。

上海浦东法院知识产权庭法官徐弘韬这样形容:爬虫就是一个访客,Robots协议是房门上悬挂的请勿入门的告示牌。谦谦君子走近门前看到这个告示牌,会停下脚步,但不法之徒仍可能破门而入。

梳理相关判例,徐弘韬指出,Robots协议是互联网行业普遍遵循的规则,如果搜索引擎违反Robots协议抓取网站内容,可能会被认定为违背商业道德,构成不正当竞争。但Robots协议解决前置性问题,即抓取行为是否得当,而不解决抓取之后数据使用是否得当的问题。

他进一步分析,法院在个案件判决中倾向于认为爬虫技术是具有中立属性,并尊重网站对于Robots协议设置方式。如果爬取者违背Robots协议进行强行抓取,在正当性评判上可能给予一定的负面评价。此外Robots协议和行为正当性有关联,但不是唯一对立性——即使符合Robots协议抓取,也可能因为后期使用行为被判定为不正当性。

值得一提的是,网络爬虫者对爬取行为进行抗辩时,经常将Robots协议限制爬取与数据流转联系起来。

徐弘韬认为,在“互联互通”的语境下,“有序”和“流转”同等重要。这需要把握“互联互通”与数据共享之间的度的问题,同时考虑各互联网产业经营者采取的Robots协议策略是否可能导致数据孤岛局面的出现。

判别爬虫行为正当性,需考虑多重因素

“检察机关正在积极推动企业合规改革试点工作,数据合规是关注热点。”上海市人民检察院研究室副主任陈超然表示,现在爬虫爬取数据案件非常普遍。当一个网络平台或者个人通过技术手段抓取别的平台数据时,这种行为是否合法,平台数据主体是谁,归谁使用,值得深入研讨。

研讨会上,华东政法大学教授张勇对数据爬虫的危害行为进行了分类。

他称从数据类型上来看,数据爬取可能侵犯到的权益包括计算机系统安全、个人信息、版权、国家秘密、商业秘密、市场竞争秩序等;从爬取方式来看,数据爬取可能危害到计算机信息系统安全、非法获取公民个人信息、非法获取商业秘密、破坏版权技术保护措施等;从爬取结果来看,则存在不正当竞争类、侵犯著作权类、侵犯人格权类等问题。

当数据成为一种生产要素,数据抓取技术应用场景日益广泛,随着而来的争议纠纷也不断增多。如何判别爬虫行为的正当性,从已有的判例中或能找到一些答案。

今年9月14日,杭州互联网法院公布一起爬取微信公众号平台数据的不正当竞争案件,判决被告停止数据抓取行为,并赔偿微信损失60万元。

据南都记者了解,被告是一家提供用户无须登录、订阅即可搜索公众号文章、查看阅读数、点赞数等服务的新媒体公司。原告称,该公司突破微信公众平台的数据防护措施抓取数据,并进行商业化利用,妨碍平台正常运行,构成不正当竞争。

法院审理认为,被告违背诚实信用原则,擅自使用原告征得用户同意、依法汇集且具有商业价值的数据,并足以实质性替代其他经营者提供的部分产品或服务,损害公平竞争的市场秩序,构成不正当竞争。

在本案中,法院还从“三元目标叠加”的角度分析了爬取行为是否具有正当性。

法院认为,从竞争者自由竞争利益角度考量,基于原告对微信公众平台的经营,应当对其数据给予竞争法保护;从用户利益角度考量,被告未获作者授权便将发文时间、点赞数、阅读数等内容展示于网站,未能尊重信息发布主体的意愿;从社会公共利益角度考量,被告爬取数据后并未进行深度挖掘、创新,未能提升社会整体公共利益。

徐弘韬以此为例提到,对于非搜索引擎爬虫的正当性判别,主要看被告是否尊重被抓取网站预设的Robots协议、是否破坏被抓取网站的技术措施、是否足以保障用户数据的安全性,以及衡量创造性与公共利益。

他指出,如果以危害用户数据安全性为代价抓取数据,且爬虫技术应用无法创造新的优质资源,仅仅是加重他人服务器负担,那么很可能在行为正当性上被给予负面评价。

采写:南都记者李玲

标签: #微博爬虫数据分析 #爬虫爬取数据并分析