互联网广告内容审核专题（二）——机器审核

人人都是产品经理 03-18 620

前言：

如今你们对“多模精确匹配算法”大概比较重视，咱们都想要剖析一些“多模精确匹配算法”的相关知识。那么小编在网摘上收集了一些有关“多模精确匹配算法””的相关知识，希望看官们能喜欢，同学们快快来了解一下吧！

导语：在上一篇文章《审核业务机制基本认知》中，作者为我们分析了审核维度主要分为准入环节的客户主体审核和推广环节的内容审核。在本篇文章中，作者将重点介绍推广内容的机器审核方式，不仅限于商业推广的内容，同样适用于流量内容审核。

互联网上每日发布海量内容，单单微博的评论日均可达亿级以上。同时，随着时代发展，在传统的图文内容以上，音视频、直播、弹幕等内容形式的兴起，对于内容审核的挑战日益增大。

很明显，在风险和用户体验双重重压之下，仅依赖人工审核是不现实的，使用机器审核并初步过滤风险内容才是最优的选择。

机器审核是什么？

简言之，机器审核是通过AI算法对劣质内容进行识别、过滤的一种审核模式，通过提取海量数据样本的特征，输入机器学习形成的机器算法。

机器审核通常可以区分为机审规则和机审模型，机审规则是最简单的机器审核方式，仅支持识别文本类内容。机审模型则能力更加强大，可支持文本、图片、音视频的审核，一起来看看机器审核是如何识别风险内容的？

一、机审规则

机审规则即风险词表，由海量的风险词和匹配规则构成，简单理解为根据匹配规则，识别待检测文本中是否存在风险词表中的词，下面来具体说说匹配规则：

1. 场景1：针对单个风险词的匹配规则精准包含匹配：待检测文本中精准包含风险词才能够命中机审规则。如风险词为【真人荷官】，待检测文本中内容为【真%人。荷/官】，词中间加入了特殊符号，即无法识别；强过滤匹配：能够将（1）中的特殊符合自动过滤后进行匹配，即将【真%人。荷/官】转化为【真人荷官】，再进行识别；拼音匹配：能够将【zhenrenheguan】、【真人heguan】转化为【真人荷官】进行识别；字母大小写转换：如风险词为【coco】，可以将【COCO】、【Coco】转化为【coco】进行识别。

2. 场景2：针对多个风险词的匹配规则多模匹配：通过识别固定词间距内是否同时出现了多个风险词（通常不超过3个），如同时出现即命中机审规则。举例：如机审规则中，风险词为【真人】和【荷官】，设置识别的固定词间距为60字。当待检测文本中出现【真人XXXX荷官】，且两个词间距不超过60字时，机审规则可以识别；置换匹配：对于多模匹配，需要按顺序先出现【真人】，再出现【荷官】，才能识别；而置换匹配，可以将两个词倒序排布后识别，即可以识别【荷官XXXX真人】。

3. 场景3：豁免规则

为防止正常合规的词语被误杀，通常会人为添加豁免规则。

举个例子：如机审规则中风险词为【人流】，豁免规则为【人流量】。那么当出现【人流量】时，即会命中豁免规则，允许该词语正常使用。

除了上述基本的匹配规则外，在商业推广中通常还会增加【白名单机制】。白名单机制的出现，是基于品牌保护的目的，即白名单内的客户或账户允许使用词【coco】，其他客户不允许使用，来保证品牌主体的正当权益。

大家可能有疑问，海量的风险词是怎么来的？如何判断一个词属于低俗风险？

这些都是专业的审核人员或风控规则运营人员基于工作经验、审核case以及互联网的海量数据进行人工整理的。可想而知，工作量极大。

随着机审能力的发展，目前也可以借助一些词扩展工具，通过一个基础词，基于繁体转换、拼音转换、同义转化等逻辑，自动扩展出变体词，辅助人工收集。

二、机审模型

机审模型能够实现对文本、图片、音频、视频各种形态产品的识别，对于不同形态的产品如何识别呢？

1. 文本识别

相较于机审规则，模型能够实现的识别场景更多。通过语义分析构建智能学习算法，结合场景对风险文本进行识别。

以下面一段文本为例【韩国电影/迷人的保姆/男主经不住漂亮保姆诱惑】，这段话拆开每个词都不涉及敏感问题，但整体的场景描述下却是低俗导向，不适宜发布。