龙空技术网

AB实验笔记之实验参与单元

气蒸云梦泽111 32

前言:

今天看官们对“匹配技术设计实验实验报告”大概比较注意,我们都需要剖析一些“匹配技术设计实验实验报告”的相关资讯。那么小编也在网上收集了一些有关“匹配技术设计实验实验报告””的相关资讯,希望看官们能喜欢,看官们一起来了解一下吧!

1、AB实验参与单元定义

实验参与单元是在实验中被随机分流的对象,也叫最小随机单元。实验参与单元并不一定是一个用户或者一个设备,可能是用户浏览的一个网页、一篇文章或者一次会话等。

2、AB实验参与单元的选择

a,元素级别:是指实验元素,比如一篇文章等进行随机分流并标识实验id的随机过程。

b,页面级别:产品页面被视为实验参与单元,进行实验的页面每打开一次就会被随机函数分配到不同的实验组中。

c,会话级别:会话是指在网站一次访问时查看的一组页面或者是启动APP后在APP内的行为,通常定义为启动APP到退出APP为一次会话。

d,用户级别:用户级别可以理解为用户参与实验的单元。

3、实验参与单元粒度与评估

在实验评估时要考虑到粒度匹配问题,即实验随机分流的粒度和评估指标的粒度相匹配。粗粒度的随机分流实验可以往下兼容评估指标,而细粒度就不能往上兼容。

4、用户级别的实验参与单元

综合做实验的粒度选择,一般选择用户级别的实验参与单元是主要的一种方式,因为用户具有体验稳定性和同时对用户长期观察。

用户级别随机化单元时,常见标识有两个:

a,采用登录账号类,比如账号、手机号等,该类用户ID虽然稳定性好,对于跨平台,跨设备之后都可以识别,但是一个账号同时有多个设备会有一定干扰实验分析评估的可能性;

b,采用设备ID类,指绑定到某一个设备号,虽然对于跨平台、跨设备这类不好统计,但是对于短期实验来说影响较小。

5、定向实验遇到的问题

定向实验是对一部分用户进行随机分流,这里会涉及到如何处理用户中另一部分没有被分流的问题,一般会有两种处理方法:

a,先锁定全部流量,然后筛选符合条件的实验进行打标,其余不符合条件的流量虽然不进行实验,但是这部分流量也被实验占用。这种方法优点是可以避免后面实验用户分布不均匀,缺点是会造成比较大的流量浪费。

b,直接从流量中选取符合条件的用户进行实验,不符合的流量回归流量池。这种方法优点是可以充分使用流量,缺点是会造成同层级后续开启实验用户的分布和大盘用户分布不一致,从而导致无法很好评估这些实验全量后对于大盘指标的提升效果。

6、实验参与单元在实验中遇到SUTVA问题

a,什么是SUTVA?

SUTVA是指在AB实验分析中,假设实验中每个实验参与单元的行为是相互独立的。

b,为什么需要让SUTVA成立?

因为AB实验因果分析主要是基于鲁宾因果模型进行的,这是AB实验分析的一个标准框架。鲁宾因果模型的分析框架有三个基本要素:潜在结果、SUTVA、分配机制。

潜在结果是指给定一个实验单元和一系列的动作后,把一个实验单元-动作确定为一个潜在结果。潜在是表达并不一定在现实中观察到,但理论上可能发生。对于任何一个实验参与单元,处理动作和不处理动作这两个潜在结果之间的差别就是处理因果效用或处理效果。

SUTVA是指在任何实验参与单元不会因分配给其它单元的处理而变化,并且对于每个单元,不同的处理对应唯一不同的结果。

分配机制是指一些个体参与实验,另一些个体不参与实验,本质上无法观察同一批用户的两个结果,所以需要从观测点结果出发,通过分配机制,估计未观测的结果,从而得到因果效应。

c,导致SUTVA不成立的原因是什么?

实验中导致SUTVA不成立主要有两个原因:一是直接干扰,比如两组用户发生互动,二是间接干扰,比如由于某些潜在结果变量或公用资源而产生的关系。

d,如何处理解决SUTVA不成立的问题?

一是建立监控,

二是进行隔离,比如共享资源隔离、地理位置隔离、网络隔离,

三是边缘度分析

四是生态经验法

五是双边随机化

7、实验最小参与单元数量

理论上讲实验样本量越多越好,因为样本量太少,实验容易被个别样本点带偏,造成结果不稳定,难以得出正确的结论。

但是现实中样本量要结合实际情况来定的,一是因为样本量是有限,要兼顾其它实验,保证用户不重叠的情况下,产品开发的速度。二是试错是有成本的,一般实验需要两周的时间,两周过后发现实验错误,期间产生的损失太高或者无法估计的。

对此确定最小实验样本量是非常重要的。根据统计学的知识,需要考虑四个因素:

a,显著性水平,其含义是第一类错误出现的概率,可用于控制第一类错误的发生。第一类错误是指在实验中表现为实验没有效果却判断有效果。显著性水平常见是5%,5%是指在做实验时保证第一类错误出现的概率不超过5%。

b,统计功效,其含义是第二类错误出现的概率,是指实验本身有效果同时也判断为无效果的概率。统计功效一般来说要在80%以上。

c,基线水平,是指在实验开始之前,对照组中所关心的实验指标的表现情况。

d,最小检验水平,是指衡量实验判断精度的最低要求

标签: #匹配技术设计实验实验报告