龙空技术网

拯救小红书之风控大法(一)

金手推 97

前言:

当前各位老铁们对“h5获取手机型号”大概比较注重,大家都想要剖析一些“h5获取手机型号”的相关文章。那么小编同时在网上收集了一些有关“h5获取手机型号””的相关文章,希望你们能喜欢,各位老铁们一起来了解一下吧!

要说最近互联网圈闹得最凶的应该是小红书下架的事情,曾几何时,小红书可以说是红头半边天啊,想学做菜怎么办,上小红书;想学传达怎么办,上小红书;想学化妆护肤怎么办,尚小红书……可以说,小红书上的笔记可以符合各个年龄阶段的各种需求,风头一时无两。

但是,如此火热的小红书竟然下架了!!!

7月29日晚间,各大安卓应用市场的小红书APP暂时不提供下载。

作为国民级种草APP,小红书的下架既是意料之外,也是情理之中。

意料之外在于,小红书本身只是一个主打消费的内容社区,本身不具有攻击性。

情理之中在于,小红书是C2C模式,笔记内容可以随意发布,任何人用任何方法都可以发布任何内容。

正常人可以,微商可以,特殊工作者可以,黑产也可以。

对于一切C2C的工具类平台产品,只要能发布内容,其实内容失控的风险都是存在的,不仅是小红书。

之前的即刻,Soul,乃至网易云音乐,都存在内容失控的情况,话题广场,论坛,评论区,用户昵称,甚至私人对话,只要可以录入文字图片和语音的地方,就存在着失控的风险。

毕竟产品是简单的,人性是复杂的。

小红书作为C2C的工具类平台,用户是可以自己上传图片和笔记的。

同时小红书又是排名靠前的种草平台,用户逛小红书就是学习和买东西的。

自由的规则配合精准的潜在消费者,二者一结合,就成了一块超级美妙的流量蛋糕,肥的流油。

于是各种违禁黑产,色情交易,非法医美,就都来了。

在下架前,小红书通过一些关键词索引,可以获得各种神奇的服务,当然现在已经开始大规模屏蔽。

例如粉毒和非法医美;比基尼和特殊服务;增高减肥和黑五类保健品;银行卡电话卡和黑产资料。

这些笔记的特点都是打着攻略分享的名义,往卖家的私人微信号上导流,然后用话术诱导成交。

这种自发性的C2C传播,也是小红书产品本身的最大特点。

很多不法商家在利用小红书这个平台,大发横财。

小红书作为平台方,有苦难言。

很难说小红书作为平台有没有责任,毕竟内容是用户自发的。

今天想讨论的是,用什么方法可以有效治理掉这些垃圾内容,小红书的风控和平台治理们也在头疼这件事情。

这里有一些建议:

小红书当前面临的核心问题是,C端用户上传的内容具有很大的不可控性,里面可能夹杂了大量的违法违禁内容,需要有效识别这些人,然后针对性屏蔽和封号,在保证正常用户体验的前提下,降低内容风险。

当然,不管是降低内容风险,还是保证用户体验,其核心目的都是要保证企业的商业利益最大化,这是大前提,风控要为业务服务。

所以一切手段最终都要平衡误杀率和ROI。

关于违规内容屏蔽,目前业内主要使用的是外采词库以及内部维护一套动态词库。

所谓外采词库就是有专门的供应商会做涉及敏感领域的词,支持API的形式直接调用,可以嵌入到用户昵称录入,文本上传,用户私信等模块,只要上传文本,都会进行一次词库过滤,把一些违禁的词给抓出来。

优点是快速上线,缺点是词库是暗箱状态(属于供应商),并且业务关键数据容易泄露(API调用的入参容易被供应商拿走商用)。

我知道小红书的供应商是哪家,我也测试过很多家,只能说通用词库是没法依据实际业务场景来做精准打击的,建议小红书自建词库,如果没有现成可配置的词库框架,可以使用脚本的方式来让研发维护一套词库,当然最好还是做成可配置的,毕竟用脚本的话,词多了很容易崩溃,不是长久之计。

有了这一套东西后,需要一套应用策略,包含敏感词收集策略,敏感词应用策略,敏感词处置策略。

所谓敏感词收集策略,要解决的是如何获取到有效的敏感词。

很多人工智能公司吹捧所谓自然语义识别,用机器学习做,在这里是不好用的,我要提醒一下小红书,不要迷信机器学习。

因为汉语是博大精深的,使用谐音字,变体字,火星文,以及中间夹杂各种特殊符号和空格的模式,很容易就能绕过机器。

就微信这个词,可以变种成V信,VX,威,VV,你懂得,威X信等等等等,机器学习做不到这么精准的打击,但人的识别配合SQL以及Python代码,可以实现。

在这里,建议使用实时数据库,配专门的数据分析师来做词语收集。

数据分析师可以通过一些基础的违规信息,来进一步人工延伸出索引规则,例如微 ` 信12345,就可以提取出某些关键字(用微这个字来做索引),某些特殊符号,甚至某些符号+数字的特征来抓。

一个熟练的风控数据分析师,一天抓出上万有效敏感词不是问题。

所谓敏感词应用策略,要解决的问题是这些敏感词用于哪些领域。

当你有了一个敏感词库时,你需要对每一个词进行打标签,例如杀人这个词是A类标签,吃奶这个词是B类标签,不同的业务场景以及电商品类,要使用完全不同的标签。

例如牛奶类的笔记,用吃奶这个词就会误伤很大。

这里需要做的是,给每一个场景的业务都打上标签,然后依据标签来使用敏感词库中的词类目。

例如口红类笔记要用ABC标签的词。

例如旗袍类的笔记要用CDF标签的词等等。

至于如何拆解品类打标和敏感词,这个就不展开了,展开必是长篇大论。

所谓敏感词处置策略,要解决的问题是内容命中了敏感词之后,要如何处置这些内容。

这里其实也牵涉对敏感词的打标,主要是设置敏感词处置权重。

例如黄恐暴类的敏感词,标签对应的处置手段应该是直接屏蔽+封号或者直接禁止发布。

例如疑似推广微信号的标签,对应的处置手段应该是屏蔽+禁言,或者禁止发布。

例如命中了一些权重较弱的敏感词或者敏感字,对应的处置手段应该是转人工审核,再发布。

当然这里只是举几个简单的例子,敏感词的应用方法还有很多,不过这个方向是目前比较成熟的模式。

除却敏感词之外,小红书的笔记中还含有大量的图片类内容,这些图片类内容目前主要的问题有2个。

第一个是黄恐暴类图片,图片本身有问题。

第二个是图片本身没问题,但是图片里面的东西有问题,例如图片里面就有VX:12345等字迹或者水印。

对于前者,建议直接购买现成的图片识别服务,阿里腾讯都有成熟的服务。

对于后者,可以使用OCR把图片转成文字,然后使用敏感词策略来进行处理。

以上是对于内容本身的风控思路,需要注意的是,这个需要投入大量的资源,尤其是人工审核资源,今日头条就有数千人专门做内容审核,对于内容电商来说,这个不能省。

而且内容攻防应该是动态的,不存在一劳永逸的事情,需要做好持久战的准备,汉语就是这么博大精深。

内容风控很重要,但其实只是表层,而且永远难以做到穷举,真的一刀切下去,会误伤大量的正常用户,这对于用户体验和公司的商业价值而言都是损失。

比内容风控更重要的,是底层风控,从用户注册到发生第一次行为(例如发布笔记或者给某个笔记点赞或者评论或者分享),都需要做更深入的风险管理。

除了要管别人发了什么内容,同样还要管是哪些【人】发了这些内容。

通过敏感词体系,可以对大量的内容笔记来进行标签,分类出正常笔记,可疑笔记,捣乱笔记,沙雕笔记等等等等等,这些统称为Y。

风控策略的基础逻辑是F(x)=Y,X是指特征,F是指算法or策略,Y是指效果。

当你有了Y之后,就等于知道了答案。

然后去找这些异常的笔记,都是谁发布的,这些发布的账号的特征(X)是什么。

一般常见的账号特征有数百个维度,例如注册时间,年龄,性别,发布时间,常用标签,ip地址,设备号(imac,imei,device id),手机号,性别,归属地,APP来源(华为市场,小米市场,APP Store),登录模式(APP,小程序,H5),手机型号,GPS地址,LBS区域,用户注册来源(自来水,A活动推广,市场投放转化,CPA),历史行为(点赞数,关注人),浏览行为,等等等等等,这些信息有的来自于APP埋点,有的来自于依据原有特征推算出的衍生特征。

特征工程是风控的核心之一,重要性不亚于策略应用,好的数据是一切的基础。

通过敏感词找到Y,然后利用Y来反推命中的X,然后得出应用策略-F。

案例1,假如小红书发现某个整容类的异常笔记,大部分发布者和点赞者的IP都是相同的或者都是同一个号段的,那么完全可以设置策略屏蔽这个IP段发这个类型的笔记。

案例2,假如小红书发现某些有问题的笔记,都指向同一个微信号,那么就把发布过这个微信号的账号全都封了,连误杀都没有。

案例3,假如小红书发现某些有问题的笔记,大部分发布者和点赞者都是24小时内注册的,那么完全可以设置注册时间XXX时间内,不允许在XX领域发笔记。

类似的规则,在成熟的平台治理中,会有数十万条,我做过设计和维护。

这一切的规则,都要做成动态可配置的,做成决策引擎的模式,风控只需要拖拉拽这些标签,然后自己写比对符和阈值,再配置处置手段,就可以生效。

例如一条规则,禁止注册时间在24小时内的女性用户发布比基尼笔记。

拆解起来就是。

注册时间<24小时,

且 性别标签=女,

且笔记标签=比基尼

则,禁止发布,

且,弹出文案。

把这些做成是否的标签,可以自由配置,快速上线。

预知后事如何,请听下回分晓

本文作者:野草新消费

标签: #h5获取手机型号 #h5获取手机型号信息