前言:
目前咱们对“推荐系统用户标签算法”都比较看重,各位老铁们都想要剖析一些“推荐系统用户标签算法”的相关内容。那么小编同时在网络上搜集了一些关于“推荐系统用户标签算法””的相关资讯,希望朋友们能喜欢,同学们快快来了解一下吧!编辑导语:前段时间,网信办公布了《互联网信息服务算法推荐管理规定(征求意见稿)》,当中涉及到了许多的互联网服务,对很多细节都进行了相关规定。本文针对该规定进行了详细的解读,了解算法推荐管理条例中的一些变化以及是如何进行管理的。
前一阵网信办公布了《互联网信息服务算法推荐管理规定(征求意见稿)》(以下简称《算法推荐管理规定》或《规定》)公开征求意见的通知。
通知里的内容实际上涉及了之前热议的许多话题,例如大数据杀熟、隐私问题、外卖配送调度问题等等,同时也对互联网服务中算法里的很多细节进行了规定。不得不说,立法团队里还是有高人在的。不过法律条文大都比较枯燥,所以今天这里聊一聊我对《算法推荐管理规定》的解读。
首先要声明一下:本文仅为从业人员发表的个人观点,不作为法律意见,仅供参考。
一、定义
前六条基本上是各种管理规定里的例行条例。
这里比较重要的是第二条,对算法推荐服务的定义:
第二条:前款所称应用算法推荐技术,是指应用生成合成类(图片视频AI生成)、个性化推送类(推荐、Push)、排序精选类(热榜)、检索过滤类(搜索)、调度决策类(外卖、网约车等)等算法技术向用户提供信息内容。
括号内容是我理解的场景,不是原文。可以看到这里基本上囊括了互联网产品中涉及到的大部分算法技术服务,不过有一块例外——广告业务,当然广告可以视为每个场景下的商业化方案,广告内容也可以作为内容的一种纳入监管,但也有一些场景不在上面的范围内,比如联盟广告。
而广告又是比较容易引起用户关注隐私问题的场景(常见案例:输入法DMP带来的广告精准投放),所以这块还是要看后续怎么界定。
二、内容风控
接下来第七条到第九条是对互联网平台内容风控提出的要求,可以预见大厂未来对这块的投入应该还要持续增加,中小厂可能会找一些第三方的解决方案(比如数美之类),对内容安全行业和从业人员持续利好。
这一部分条例值得讨论的有两点。第一点是关于第八条提到的不得设置诱导用户沉迷的算法模型这块,基本上就是点名各短视频平台了:
第八条:算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等,不得设置诱导用户沉迷或者高额消费等违背公序良俗的算法模型。
但短视频平台推荐模型的优化目标,核心就是浏览时长,这是业界多年累积下来的、能够和商业化目标更一致的经验,那这算不算是「诱导用户沉迷」呢?如果算的话,也不可能退回到优化点击率的模型去,只能是往多目标优化发展,那这样是不是能够稍微圆回来一些呢?
所以这个地方,我觉得平台可能更多能做的,是反过来思考:你的防沉迷系统,有没有做得足够好(尤其是未成年人防沉迷)?然后祈祷不会出现各种抨击短视频导致用户沉迷、抨击「信息茧房」的新闻报道。第二点是第九条,关于生成合成信息(图片视频AI生成)这块:
第九条:算法推荐服务提供者应当加强信息内容管理,建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序。发现未作显著标识的算法生成合成信息的,应当作出显著标识后,方可继续传输。发现违法信息的,应当立即停止传输,采取消除等处置措施,防止信息扩散,保存有关记录,并向网信部门报告。发现不良信息的,应当按照网络信息内容生态治理有关规定予以处置。
目前AI生成图片和视频这块的技术,说实话已经要比想象中成熟很多了,比如隔一段时间就火一阵的换脸App。好在目前还都是娱乐用途为主,比如B站上面各种大司马的换脸视频,但保不齐也会被人用来恶意制作篡改、传播谣言,所以这个条例还是有必要的。
但怎么说呢,AI生成是基于生成对抗网络(GAN)的技术,本身就是用一个生成器和一个判别器来对抗,直到判别器也真假难辨的时候生成器生成的图片或视频方能出山。所以这块对AI生成内容的鉴定,无论是人还是机器来做,我觉得未来都是一个大的挑战。
三、核心条例
接下来的第十条到第十八条,是围绕各互联网算法推荐场景做出的规定,我们一个一个来聊。
第十条:算法推荐服务提供者应当加强用户模型和用户标签管理,完善记入用户模型的兴趣点规则,不得将违法和不良信息关键词记入用户兴趣点或者作为用户标签并据以推送信息内容,不得设置歧视性或者偏见性用户标签。
用户画像:像什么「好色」、「好赌」这种用户标签,以后就都不允许存在了。当然这里面可能不仅仅是标签名字的问题,用户画像使用的数据源也要符合条例当中的规定,否则这两个标签改成「喜欢异性」、「喜欢刺激」不就好了?
第十一条:算法推荐服务提供者应当加强算法推荐服务版面页面生态管理,建立完善人工干预和用户自主选择机制,在首页首屏、热搜、精选、榜单类、弹窗等重点环节积极呈现符合主流价值导向的信息内容。
第十二条:算法推荐服务提供者应当综合运用内容去重、打散干预等策略,并优化检索、排序、选择、推送、展示等规则的透明度和可解释性,避免对用户产生不良影响、引发争议纠纷。
第十三条:算法推荐服务提供者不得利用算法虚假注册账号、非法交易账号、操纵用户账号,或者虚假点赞、评论、转发、网页导航等,实施流量造假、流量劫持;不得利用算法屏蔽信息、过度推荐、操纵榜单或者检索结果排序、控制热搜或者精选等干预信息呈现,实施自我优待、不正当竞争、影响网络舆论或者规避监管。
第十一到第十三条主要是对算法推荐服务提供者干预算法模型做出的相关规定,里面甚至提到了「去重」、「打散」等术语,可以说是相当专业了。
这个部分也有两块值得一提,一个是第十三条第一款提到的:算法推荐服务提供者不得利用算法……实施流量造假、流量劫持。事实上,条例中提到的虚假注册账号等这些行为,压根用不上算法,这样的措辞反而会让人觉得,我不用算法做这些事情,是不是就可以了?
所以,「利用算法」这四个字,我觉得可以去掉。其次,在实际情况中,虽然不排除有平台方做虚假注册账号(僵尸号)等流量造假行为,但第三方进行账号虚假注册交易、刷赞刷评刷榜是更常见的行为,对这个情况的监管也应该纳入到条例中来。
第二个是对热榜、热搜的干预行为,这部分要把第十一条和第十三条结合起来看。平台方对热榜、热搜的干预后门肯定会有,否则万一遇到什么突发情况(比如被境外势力恶意刷上热榜),平台方怎么撤热榜热搜呢?
但另一方面,平台方对热榜、热搜黑盒式、不透明的干预行为,也让平台方有非常强力的影响舆论的能力(参考蒋凡事件),需要被监管。所以这三条围绕这一点进行了一些规定。第十一条提到,要完善人工干预机制,第十三条又提到,不得利用算法干预信息呈现。
这块怎么理解呢?我的理解是,这实际上意思是说,从此以后,平台方就不能再说,是因为「算法」干预的热榜热搜结果,这个托词,对不起以后没有了。
未来所有对热榜热搜的干预,都是你平台人工进行的,所以这里面平台方需要有一个完善的干预流程和干预机制,并且所有操作记录要在平台数据库中留底备查,这是监管希望达到的效果。
第十四条:算法推荐服务提供者应当以显著方式告知用户其提供算法推荐服务的情况,并以适当方式公示算法推荐服务的基本原理、目的意图、运行机制等。
这一条,虽然是对第二条定义提到的所有算法推荐服务提出的要求,但主要针对的还是热榜热搜场景,这个场景对舆论影响大,算法原理又简单,公示之后大部分人都能看得懂。
第十五条:算法推荐服务提供者应当向用户提供不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。用户选择关闭算法推荐服务的,算法推荐服务提供者应当立即停止提供相关服务。
算法推荐服务提供者应当向用户提供选择、修改或者删除用于算法推荐服务的用户标签的功能。
用户认为算法推荐服务提供者应用算法对其权益造成重大影响的,有权要求算法推荐服务提供者予以说明并采取相应改进或者补救措施。
好的,重点来了,第十五条,要求算法推荐服务提供者提供关闭个性化或算法推荐服务的选项给用户,直指过去个性化推荐被诟病许久的隐私问题。这一条也是单独被拎出来,作为新闻报道宣发的一条:
首先,算法推荐依据的个人特征其实是有分类的,既有用户的个人属性(如年龄、性别)、设备属性(如机型)、环境上下文属性(如地理位置)等等,也有用户在平台的各种过往行为。
关闭个性化推荐,要不要区分具体的特征呢?比如只关闭个人属性,过去的行为特征还是让平台保留?你说我都看了那么多小姐姐,把号养好了,你这说关就全都关了?
但如果不做约定,我觉得平台大概率不会分得这么细,只有一个「是否关闭个性化推荐」的选项,你说你关不关吧?那你要是能只关属性,保留行为特征,那我肯定关啊。
所以这个地方,最好还是有细则或解释能够进行一下指导或要求。
其次,假设真的提供这种便捷的关闭选项,包括更细化的关闭选项,最后会有多少用户愿意真正地关闭「个性化推荐」而不是直接卸载应用?我还是很好奇这个关闭率的。
关闭之后,如果后悔,是不是还应该提供便捷的打开措施给用户?所以,我觉得这一条可以稍微调整一下措辞,把「提供便捷的关闭算法推荐服务的选项」改为「提供便捷的开关算法推荐服务的选项」即可。
第十六条:算法推荐服务提供者向未成年人提供服务的,应当依法履行未成年人网络保护义务,并通过开发适合未成年人使用的模式、提供适合未成年人特点的服务等方式,便利未成年人获取有益身心健康的信息内容。算法推荐服务提供者不得向未成年人用户推送可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好等可能影响未成年人身心健康的信息内容,不得利用算法推荐服务诱导未成年人沉迷网络。
第十七条:算法推荐服务提供者向劳动者提供工作调度服务的,应当建立完善平台订单分配、报酬构成及支付、工作时间、奖惩等相关算法,履行劳动者权益保障义务。
第十八条:算法推荐服务提供者向消费者销售商品或者提供服务的,应当保护消费者合法权益,不得根据消费者的偏好、交易习惯等特征,利用算法在交易价格等交易条件上实行不合理的差别待遇等违法行为。
这三条相对就比较容易理解了,第十六条是对未成年人保护提出的要求,第十七条基本就是点名对外卖平台、网约车平台提出的要求,第十八条是对「大数据杀熟」行为进行了定义和约束。
同时,这三条的主管部门也不是网信办,具体到监管执行的时候还是要联合其他部门(比如教育、人社、消保等)来处理的。
四、监管措施与罚则
《规定》的第十九条到第二十六条是约定的具体监管措施,比如分级监管、备案等,其余第二十七条开始是约定的罚则,都是法律条文中比较常规的内容,就不一一细聊了。
简单说下第二十条,关于备案的内容:
第二十条:具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。
首先,备案主体是具有舆论属性或者社会动员能力的算法推荐服务提供者,所以社区类、社交类、短视频类、新闻类等偏社交、内容的应用都应该备案,而像外卖、网约车、电商等应该就不属于需要备案的主体了。
其次,备案哪些内容?比较被关注的是算法自评估报告和公示内容,光看名字也看不出啥来,具体还是要看执行要求。
不过既然有公示,那就到时候可以看看公示到什么程度了,我觉得至少各家热榜算法公式应该是要公布出来了,而不是像之前这样藏着掖着。
以上就是一些关于《算法推荐管理规定》的个人解读,总体来说是一份相当完备的监管条例了,既包括了网信办重点关注的内容舆情方面的监管规定,也对算法涉及的其他方面的社会影响有所提及。
对于各互联网服务平台来说,《规定》不仅仅是让算法更加透明、更加白盒化,同时也对平台的内容风控能力提出了更高的要求。
最后再次声明一下:本文仅为从业人员发表的个人观点,不作为法律意见,仅供参考。
作者:青十五;公众号:青十五,新书《策略产品经理:模型与方法论》作者
本文由 @青十五 原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
标签: #推荐系统用户标签算法