其他分享
首页 > 其他分享> > 一文搞懂A/B test与假设检验

一文搞懂A/B test与假设检验

作者:互联网

A/B test

应用场景

①产品UI:红色 or 紫色?,动态icon or 静态icon?
②文案内容:免费注册 or 注册送大礼包?
③页面布局:登录框 置于导航栏 or 页面左侧?
④产品功能:看似冗余的功能 下掉 or 留着?
⑤算法模型:根据用户的历史记录推荐 or 根据相似用户的行为推荐?

流程

①确定对比指标
②创建变体
③生成假设
④收集数据
⑤运行实验
⑥分析结果

样本规模

对于比率类的指标:
n = 2 × [ Z α / 2 + Z β d ] 2 × P ( 1 − p ) n=2\times \left[ \dfrac{Z_{\alpha /2}+Z_{\beta }}{d}\right] ^{2}\times P\left( 1-p\right) n=2×[dZα/2​+Zβ​​]2×P(1−p)
  其中Z为Z系数,有一个固定的Z值表,可以依据 α \alpha α和 β \beta β指标确定。
  工业应用中一般默认 α = 0.1 ( 单 尾 ) \alpha=0.1(单尾) α=0.1(单尾)和 β = 0.2 \beta=0.2 β=0.2,因此公式的分子部分 Z α / 2 + Z β Z_{\alpha /2}+Z_{\beta } Zα/2​+Zβ​可以固定为2.4849.
  p为对照指标的历史月均值;
  d为p与新方案预期提升率的乘积。

测试结果分析

  A/B test的本质是假设检验,即进行显著性检验以拒绝或接受原假设。

假设检验

定义

  先对总体参数提出一个假设值,然后利用样本信息判定这一假设是否成立。

生成假设

  原假设(H0假设):一般是统计者想要拒绝的假设,原假设的设置一般为:=、≥、≤
  备择假设(H1假设):一般是统计者想要接受的假设,备择假设的设置一般为:≠、>、<
例如,在做新旧版本的A/B test时,假设为:
   H 0 : u ( 旧 版 本 ) ≥ u ( 新 版 本 ) H0:u(旧版本)≥u(新版本) H0:u(旧版本)≥u(新版本)
   H 1 : u ( 旧 版 本 ) < u ( 新 版 本 ) H1:u(旧版本)<u(新版本) H1:u(旧版本)<u(新版本)

为什么把想要接受的假设作为原假设?
  因为原假设被拒绝如果出错的话,只能犯第Ⅰ类错误(弃真错误),而犯第Ⅰ类错误的概率已经被规定的显著性水平所控制。

两类错误

  第Ⅰ类错误:也叫弃真错误或α错误,指拒绝了正确的原假设,这个错误的概率记为α,该值也是显著性水平,在假设检验前会规定这个概率的大小。
  第Ⅱ类错误:也叫取伪错误或β错误,指接受了错误的原假设,错误的概率即为β。

显著性水平α

  显著性水平指原假设实际正确时,检验统计量落在拒绝域的概率,显著性水平α越小,犯第Ⅰ类错误的概率越小,一般取0.01,0.05,0.1等。
  1-α即为置信度。

检验方式

双侧检验和单侧检验
  双侧检验:备择假设没有特定的方向性,形式为≠;
  单侧检验:备择假设带有特定的方向性,形式为>、<,>称为右侧检验,<称为左侧检验;

t检验和z检验
  场景不同:t检验用于样本量小(n<30),总体标准差未知的正态分布:z检验用于大样本(n>30)的平均值差异性检验。
  原理不同:t检验是检验一个样本平均数与总体平均数的差异是否显著:z检验是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
  联系:z检验虽然能够进行均值差异性检验,但是它要求总体标准差已知且样本容量足够大,而这两个条件很难达成:于是可以从正态总体中抽取小规模的样本数据,并计算均值与标准差用来替代总体的均值和标准差。

拒绝域

  拒绝域的功能是判断是否拒绝原假设,如果计算的检验统计量值落在拒绝域内,就拒绝原假设,否则接受原假设。
  确定显著性水平后,查表即可得到拒绝域的临界值。
在这里插入图片描述

p值

使用p值的原因:
  根据检验统计量落入的区域做出是否拒绝原假设的方式不够精确,例如,拒绝域的临界值为1.96,显著性水平α为0.05,则统计量t=2.5和t=2.0都落入拒绝域,且拒绝原假设面临的风险都是0.05.
使用方式:
  如果p>α 拒绝原假设 —>单边检验
  如果p/2>α 拒绝原假设 —>双击检验
计算方式:
  P=P{X<C} 左侧检验
  P=P{X>C} 右侧检验
  P=P{|X|>C} 双侧检验

q值

  可以理解为FDR(错误发现率),计算公式:假正数/预测为正的数.α =0.05时,一次假设检验的错误率为5%,那么多次假设时如何评估和控制错误率呢,就是通过q值.
  如何控制:找到最大的正整数i,使得p(i)≤(i*q)/m.

标签:显著性,错误,假设,假设检验,检验,拒绝,test,搞懂,拒绝域
来源: https://blog.csdn.net/a321123b/article/details/120216894