龙空技术网

​微信“看一看”设计拆解(上)

一口嘎嘣脆脆 36

前言:

目前各位老铁们对“微信里面的看一看是看的哪的内容”大约比较重视,大家都想要学习一些“微信里面的看一看是看的哪的内容”的相关资讯。那么小编也在网上收集了一些对于“微信里面的看一看是看的哪的内容””的相关资讯,希望姐妹们能喜欢,你们快快来学习一下吧!

后台回复 进阶 查看《各行业产品设计方案》



本文来源:腾讯技术工程




看一看介绍




1.1 看一看的场景


微信作为国内最大用户群体的应用,在人们的生活,工作,学习中提供社交功能的同时,还提供了工具,游戏,购物,支付,内容,搜索,小程序等服务。看一看作为微信的重要组成部分,在原有公众平台资讯阅读的基础上,为用户提供中心化的内容消费平台,旨在提升内容发现效率,优化内容质量,丰富内容种类。



1.2 看一看的质量控制


与其他很多资讯产品上线初的野蛮生长不一样,质量控制一开始就作为看一看上线标准被提出并进行了大量的投入。质量控制的必要性是由于多方面的因素决定的。


(内在属性)一个产品的出身和环境决定了其的调性,微信内在也决定了看一看的调性。在这里,调性这个词更多的是形容内容质量可以被用户接受的底线。用户对微信的期待也提高了这个底线。


(外部压力)微信的每一次改动都会受到广泛的关注,在功能上线初期面临着比其他应用更大的舆论压力和监管压力。


(黑产对抗)因为用户多,流量大,强大的经济效益引来黑产的参与,使得内容生产的大环境很差,低质量数据充斥各个角落;问题也在不断地的变化,识别控制难度也在持续加大。




总体框架



既然质量控制作为推荐系统必不可少的一部分,那么在推荐系统中处质量控制处于什么位置,包含哪些子模块,又是从哪几方面方面进行控制?

首先,我们先看一下内容数据在推荐系统的一生。



2.1 数据的一生



数据从内容生产方发表产生,由平台收集数据。这里生产方来自四面八方,生产的内容五花八门,质量也是参差不齐。所以,平台将数据接入之后第一件事情就是将这些内容进行格式化和特征提取,方便后面的流程能通用化地处理这些内容数据。


内容经过前面的初步处理后,质量控制模块根据已有的特征对内容进行过滤,主要是过滤不符合平台规则的低质量数据和提供后面排序需要考虑的质量因子。这里面涉及到过滤效率的问题,一般会分为粗过滤还有细过滤。排序推荐模块将根据内容特征还有用户行为对数据进行排序。


最后,平台将内容推荐给用户进行消费,消费的过程中会与内容产生很多交互行为。这些行为数据,可以用于平台的质量控制和推荐排序;也可以反馈给生产者,让生产者能够了解到内容被消费的情况,生产更多符合用户需求的内容。



2.2 多维度控制


数据的一生中,我们可以看到平台都是通过对发表内容本身进行检测来进行质量控制,这显然是不够的。一个控制框架的有效运行不能仅仅在一个地方进行监控,需要全面,多维度共同作用。我们可以抽象一下平台,生产,还有用户。我们会发现其实除了对平台自身检测能力进行提升外,也可以对生产者和用户进行引导,评估。



根据生产者生产内容的质量,还有用户对内容的反馈,平台可以对生产者进行分级分类。对不同等级的生产者,使用不同质量控制策略,如,高质量的账号颁发个免检标签,在质量控制的时候避免误伤。而对于一些已经被检测到有低质量内容的账号进行一定时间的封禁,减少相似问题的爆发,增加长尾问题的召回,提升系统的响应速度。不同类目也是同样的道理,比如高危的内容类(社会民生,养生健康,娱乐)需要加强控制。


而对于用户,我们同样可以根据一下用户的基础数据(地域,年龄,性别)和用户在微信内的一下阅读信息,对用户进行分类。不同用户可以使用不同的控制策略。这样在保证了用户对体验有不同要求的前提下,尽可能地保证推荐系统的效率。



2.3 辅助模块


除了上面说的三个部分之外,还有几个同样非常重要的质量控制辅助模块,这些模块对保证整个质量控制的正常运行至关重要。



监控系统:监控系统需要对平台,生产,用户的各个方面进行监控,有些数值监控指标可以通过机器持续监控,而有些数据本身的问题则需要人工的轮询与审核,还有就是新问题的发现与归纳汇总。其中最重要的是能够进行全方位覆盖,不同范围,不同领域,有时候问题可能隐藏的茫茫大盘数据中。


干预系统:干预系统是对问题出现后,进行快速处理的手段。这样能够在模型策略迭代较慢的时候暂时压制问题,减少影响范围。干预系统除了生效快之外,还有一个重要的能力是相似内容的查找(去重指纹),如相似标题的封禁和相似图片的封禁。


标注系统:标注系统作为一个提升样本收集效率的平台,不仅能有效提升标注人员的标注效率,进而有效提升模型的迭代效率;而且标注系统方便对问题的收集,总结,归纳,形成各个领域的知识库。




数据与质量



前面介绍了质量控制的必要性,也介绍了质量控制的大体框架。那么到底数据是指哪些数据?所谓的质量又指的是哪些质量指标?这些数据跟这些质量指标带给我们什么问题与挑战呢?



3.1 内容数据源


看一看的数据从来源上分包括公众平台,腾讯新闻,腾讯视频,企鹅号,微视,快手等。从内容形式上分有文章,新闻,视频,图片等。样式丰富的数据在满足不同用户的内容需求的同时也加大了监管的难度。





3.2 质量指标


同时,看一看以用户的体验为出发点结合具体业务需要建立了一套质量指标体系。这里指标随着业务的发展不断在增加,含义也在不断的丰富。多维度的指标可以为业务的质量过滤和推荐排序提供更多的个性化的选择。




3.3 问题与挑战


那么,我们的问题和挑战是什么呢?我们先来看一下日常工作中经常遇到的一些对话。事情的本质往往隐藏在复杂的表面下。



丰富的数据源,多维度的质量指标,个性化的业务场景带来的其实是组合爆炸问题。如果对每一种组合都单独处理,不仅导致大量人力的浪费;同时,也无法对速度要求高的质量控制问题进行快速响应。毫无疑问从体系上进行通用化,模板化,可复用,可迁移是我们解决问题的方向。下一节,我们会从一个普通任务的迭代周期出发,分析上面对话对应的迭代过程的那一部分,并对相应的部分进行相应的通用化。




标签: #微信里面的看一看是看的哪的内容