前言:
目前小伙伴们对“爬虫api数据获取”大约比较关怀,你们都想要了解一些“爬虫api数据获取”的相关知识。那么小编同时在网络上搜集了一些有关“爬虫api数据获取””的相关资讯,希望兄弟们能喜欢,看官们快快来了解一下吧!21世纪经济报道见习记者肖潇 北京报道
1月16日,广东省高级人民法院对微梦公司诉简亦迅公司不正当竞争案二审宣判。广东高院驳回上诉,维持原判:全额支持原告微梦公司的经济赔偿诉求,即微博获赔2000万元。
据了解,这是国内首例非法调用API接口抓取、交易数据的不正当竞争案件。
API指应用程序接口。通过API,可以获得已经筛选和整理好的数据。很多网站对外公布自己的API接口,方便开发人员获取特定数据。
以微博为例,目前公开的API包括评论、转发接口,以及广告、地理位置、用户信息等接口。使用这些API接口获取数据前,需要先申请开发者账号,使用过程中则需要遵守微博的开发者协议,比如每个IP地址和每小时内能调用的API次数、频率。
在本案中,微博指控简亦迅公司非法调用了API,抓取了大量微博后台数据,并通过其经营的iDataAPI网站对外售卖。
广东高级法院进一步查明,被告公司在每次抓取微博数据时,采用了变换IP地址和微博用户账户等技术手段。iDataAPI网站对外售卖的微博数据不仅覆盖微博网页的相应展示内容,还包括后台服务数据。此外,网站调用次数高达21.79亿余次,并根据用户调用次数收取相应费用。
从以上广东高院的通报细节可以看出,本案的违法事实比较清晰。
上海申伦律师事务所的夏海龙律师向21记者分析,数据采集方式上,被告公司并非用正常方式通过API接口获得微博数据,而是通过不断变换IP地址等技术手段,“骗取”微博服务器的数据调用权限;数据内容上,采集了本无权调用的微博后台数据,而且直接转卖获利。因此,法院判决上述行为构成了《反不正当竞争法》第二条规定的不正当竞争行为。
广东高院表示,微博对依法依规持有的微博数据,享有自主管控、合法利用并获取经济利益的权益。简亦迅公司违反了公平竞争、诚实信用原则和商业道德,扰乱了数据市场竞争秩序,严重损害了微梦公司和消费者合法权益。
由这起案件延伸出的一个关注点是,API接口数据的价值和风险。
不同于常说的网络爬虫,API由网站主动提供、预先打包,不需要模拟浏览行为,也不需要解析网页来获取数据,给网站服务器带来的压力较轻。
在数据市场,从API渠道正常获取的数据很重要。2022年一项调查显示,API数据接口是国内最主流的数据交易产品类型。记者浏览各地的数据交易所也发现,交易所基本都有专门的API数据板块,比如深圳数据交易所显示的178条数据商品中,113条都带有“API数据”的标签。
“跟主要遵守Robots协议的网页爬虫不一样,API开放协议形式,实质上表示数据持有方对数据已经采取了一定的保护措施。我们通常认为,不管数据本身是否公开,如果数据持有人采取了适当的保护措施,应该认为其持有一定利益。”南开大学法学院副院长、竞争法研究中心主任陈兵告诉21记者。
而在这起微博胜诉的案件中,可以看到法院承认、保护了数据持有者对依法依规持有的数据的权益,比如自主管控、合法利用、获取经济利益。这一做法无疑对上游的数据持有者具有激励意义,打击破坏流通秩序的违法行为。
数据成为新生产要素的当下,在获取此类数据的过程中,如何减少法律风险?
夏海龙提醒,尤其需要注意获取数据的方式、数据类别、数量是否符合双方约定:“应当通过对方许可的方式操作,否则无论采用何种技术手段,只要存在规避、破坏、绕过对方保护机制的情形,都可能属于侵权行为。”
不过陈兵也补充,每个案件的情况都不同,数据持有者并不一定拥有完全的排他性权利。换句话说,不是任何“协议”或“保护措施”都有正当性。从公共利益的角度考量,数据持有者有义务,通过一种公平合理的方式许可数据使用;而数据开采者,在没有替代选择的情况下,应当采取对数据持有者商业利益侵害最小的方式获取数据。
“对于这一类数据抓取合法性的问题,除了采集手段正当,还会从采集和使用行为的关联性、使用行为的价值,两方面综合考量。在数据市场的背景下平衡多种权益,才能更好激活数据要素的作用。”陈兵说。
更多内容请下载21财经APP
标签: #爬虫api数据获取