关闭 x
IT技术网
    技 采 号
    ITJS.cn - 技术改变世界
    • 实用工具
    • 菜鸟教程
    IT采购网 中国存储网 科技号 CIO智库

    IT技术网

    IT采购网
    • 首页
    • 行业资讯
    • 系统运维
      • 操作系统
        • Windows
        • Linux
        • Mac OS
      • 数据库
        • MySQL
        • Oracle
        • SQL Server
      • 网站建设
    • 人工智能
    • 半导体芯片
    • 笔记本电脑
    • 智能手机
    • 智能汽车
    • 编程语言
    IT技术网 - ITJS.CN
    首页 » IT热点 »A/B实验避坑指南:为什么不建议开AABB实验

    A/B实验避坑指南:为什么不建议开AABB实验

    2023-03-01 14:19:09 出处:ITJS
    分享

    本文将针对日常开设A/B实验过程中一个不太合理的使用方法——AABB实验进行详细的解释,告诉大家为什么不建议开AABB实验。

    在开始之前,先来回顾一下“什么是A/B实验”,A/B实验是针对想调研的问题,提供两种不同的备选解决方案,然后让一部分用户使用方案A,另一部分用户使用方案B,最终通过实验数据对比来确定最优方案。

    什么是AABB实验

    众所周知,AB实验就是我们在总流量中分流出两组用户,一组使用原策略A,一组使用新策略B,比较两个策略的效果。

    那么AABB实验是什么呢?

    简单来说,在做实验的时候,会从总流量中分流出2个原策略组(A1、A2)和2个新策略组(B1、B2)。两个原策略组的实验配置一模一样,两个新策略组的配置也是一模一样的。实验者会综合比较A1、A2、B1、B2各组之间的指标差异(但其实多数实验者分析的方法并没有理论依据,文章后面会作出解释),这样的实验被称为AABB实验。

    当然,也有实验者会分流出更多策略组(AAABBB、AAAABBBB等),或者引入多个不同的新策略(AABBCCDD实验等)。这些实验与AABB实验存在的问题趋同,本文中姑且先以AABB实验为主要分析对象。

    为啥总有人想开AABB实验

    在进行了部分用户调研后,火山引擎DataTester团队发现,开设AABB实验的实验者通常想解决以下问题:

    验证用户分流是否“均匀”

    部分实验者担心火山引擎DataTester平台的用户分流不科学,因此开设AABB实验,通过比较A1与A2、B1与B2之间的实验指标差异,来检验用户分流是否合理。

    理想状态下,如果用户分流是随机的,那么相同的策略组(A1和A2之间),在实验中检测出的指标差异应该很小 。这是用户对于实验结果指标的预期。这时候,假如实验结果中,A1、A2的指标出现很大的差异,甚至于呈现“显著”,实验者就会认为,是火山引擎DataTester后台的分流机制有问题。然而,这个判断是不科学的。为什么呢?请阅读下文中的错误No.1。

    比较“AA组内差异”和“AB组间差异”

    有的实验者认为:开设AABB实验,假如AA之间的实验结果差异很小,AB之间的实验结果差异较大,那么在这种情况下,我的B策略应该就是有用的。这种想法本身没有问题,但是火山引擎DataTester的大部分指标提供了置信度功能,此时这种做法就显得有些画蛇添足了。详细的原因参考下文中错误No.2和错误No.4。

    AABB实验到底错在哪儿

    No.1  AA组内指标差异显著/置信并不代表分流不科学

    A1、A2组之间的实验指标差异大,甚至出现显著,就能说明分流不科学吗?其实并不能。实际上,在对比AA组间指标差异时,以下的几种情况都是完全可能发生的:

    1、AA组内的指标必然存在差异:虽然A1、A2两组所采用的策略完全一样,但进入A1、A2组的用户是完全随机的,这是随机抽取的两份样本,必然存在抽样误差,因此指标值不可能完全一样。

    2、AA组内的指标差异可能还不小:如果样本中的用户量太少,或样本用户中存在极端个例(比如抽20个人算中国人的平均收入,抽样的时候抽到了农夫山泉董事长钟睒睒和月薪5000元的某人),那么在观察常见的均值等类型指标时,AA组内指标差异很可能还“不小”。

    3、AA差异可能“显著”:在检验假设的过程中,我们容易犯的一类错误是:策略原本无用,但实验结果显示该策略有用。A1、A2组指标差异显著,正是对应了这类错误——其实两个策略是一样的,但是实验结果显示A2有用。在A/B实验中,这类错误出现的概率是5%。也就是说,假如你开100次AA实验,出现5次显著是合理的。如果AA实验指标差异呈现统计显著,也不过是一个概率问题,并不代表分流不科学。

    综上,我们再来回顾一下什么是“统计显著”。顾名思义,这是一个统计术语,并不等同于指标在实际业务中发生了“显著变化”。更不能以此推论出“因为AA有差异,且AA的策略相同,所以分流结果有问题,AB的结论也不可信”。

    No.2  AABB实验中,统计指标更容易犯错

    先来明确一点,目前火山引擎DataTester的统计学原理是双样本假设检验。也就是说,目前火山引擎DataTester的假设检验都是按照一个对照组(旧策略组A)和一个实验组(新策略组B)来设计的。在1次比较中,我们犯第一类错误的可能是5%。AABB实验中,实际上有6组对比(排列组合一下:A1A2,A1B1,A1B2,A2B1,A2B2,B1B2)。组合增多,那么我们犯错的概率必然会增大。

    如果实验者将实验组增多(AAABBB),或者参与实验的策略增多(ABCDE,AABBCCDD等多个新策略),那么排列组合就会更多了,犯错的概率就会越来越大。再加上在实验中,我们可能会观察多个指标,这样我们犯错的概率就更大了。

    No.3 AABB实验一定程度上会影响实验的灵敏度

    实验调用的样本量越多,实验结果就越灵敏。相较于A/B实验(只设置一个A组和一个B组)来说,AABB实验将实验组的数量增加到了4个。此时实验者不得不面临几个选择:

    1、实验总流量不变,各实验组的流量减少一半,这会造成实验灵敏度下降;

    2、单实验组的流量不变,将分流进实验的总体流量增加一倍,这意味着实验者可能会承担更大的风险(如果新策略造成负向影响,会有更多的用户受到影响);

    3、也有一些聪明的实验者选择延长实验时长,让更多用户进入实验之中,但这会产生更多的时间成本。

    既然如此,我们为什么不干脆把AABB实验合并为A/B实验呢?这样反而可以使得实验更灵敏、风险更小、结果更可靠。

    No.4 p-value已经帮助我们比较了“AB差异”与“AA差异”

    经过一些用户访谈,我们了解到大多数用户开设AABB实验的动机是:判断“AB差异”是否高于“AA差异”,并以此辅助自己进行决策。事实上,仔细理解显著性水平的原理,我们就会发现,p-value已经从更科学的角度帮助我们完成了这个任务:p-value小于0.05,就是在保证了“AB差异”一定大于95%以上的“AA差异”。

    既然p-value已经帮我们比较了“AB差异”与“AA差异”,我们为什么还要自己开设AABB实验进行比较呢?从某种程度上说,利用一次AABB实验来观察“AB差异”是否大于“AA差异”,仅仅是在浪费实验资源而已。

    总结

    总体来说,A/B方法论的核心是要让风险“可量化”且“可控”,火山引擎DataTester团队围绕这个目的使用假设检验范式设计了一整套系统。AABB的实验设计作为一种客观存在,并没有什么绝对的对错,只是根据火山引擎的观察,对于绝大多数实验者和绝大多数业务场景,它的ROI是远远不足以让你选择的。(作者:叶清)

    上一篇返回首页 下一篇

    声明: 此文观点不代表本站立场;转载务必保留本文链接;版权疑问请联系我们。

    别人在看

    67款移动应用存在违法违规收集使用个人信息情况

    高通、联发科、汇顶科技等“芯”助力,vivo X200 Ultra及X200s发布

    微软CTO凯文·斯科特:未来AI行业将涌现大量专业智能体

    《中国AIGC产业峰会——万物皆可AI》在北京圆满落幕

    威联通科技推出 16 颗硬盘 SAS 双主动控制器 ES1686dc R2 3U 机架式 NAS,具备 HA 及最佳存储效率

    当漏洞攻击遇上腾讯混元超能力:EdgeOne的Web安全赛博决斗

    上海外骨骼机器人亮相消博会,万元起售引关注,加速研发个人版

    深耕智能文档处理领域,合合信息《智能文档技术与应用白皮书》正式发布

    RootPhone:开启RWA代币化时代的Web3智能终端革命

    华为Mate 80系列全曝光:将出厂预装原生鸿蒙操作系统

    IT头条

    平替CUDA!摩尔线程发布MUSA 4性能分析工具

    00:43

    三起案件揭开侵犯个人信息犯罪的黑灰产业链

    13:59

    百度三年开放2.1万实习岗,全力培育AI领域未来领袖

    00:36

    工信部:一季度,电信业务总量同比增长7.7%,业务收入累计完成4469亿元

    23:42

    Gartner:2024年全球半导体营收6559亿美元,AI助力英伟达首登榜首

    18:04

    技术分享

    iOS 8 中如何集成 Touch ID 功能

    windows7系统中鼠标滑轮键(中键)的快捷应用

    MySQL数据库的23个特别注意的安全事项

    Kruskal 最小生成树算法

    Ubuntu 14.10上安装新的字体图文教程

    Ubuntu14更新后无法进入系统卡在光标界面解怎么办?

      友情链接:
    • IT采购网
    • 科技号
    • 中国存储网
    • 存储网
    • 半导体联盟
    • 医疗软件网
    • 软件中国
    • ITbrand
    • 采购中国
    • CIO智库
    • 考研题库
    • 法务网
    • AI工具网
    • 电子芯片网
    • 安全库
    • 隐私保护
    • 版权申明
    • 联系我们
    IT技术网 版权所有 © 2020-2025,京ICP备14047533号-20,Power by OK设计网

    在上方输入关键词后,回车键 开始搜索。Esc键 取消该搜索窗口。