其他分享
首页 > 其他分享> > 《推荐三十六式》工程篇之推荐系统的测试方法及常用指标介绍

《推荐三十六式》工程篇之推荐系统的测试方法及常用指标介绍

作者:互联网

------------恢复内容开始------------

传统工程的测试结果是有预期的,推荐系统的预期是高维空间中的一个区域。推荐系统的测试方法有四种:

1.业务规则扫描

  利用提前编写好的测试用例去验证相关逻辑是否正确

2.离线模拟测试

  构造模拟数据,对推荐系统进行测试,看某些结果是否符合预期

3.在线对比测试

  即ABTest,分流量对新老系统进行测试,看新的系统是否比老的系统更加优秀

4.用户访谈

  因为数据是系统的外在表现,并不能得到系统的原理,而且数据指标是人设计的,指标是具有主观性和片面性的

  用户访谈更重要的是对于推荐系统指标的讨论,指标是否能反映出预期的结果。更接近用户,可以找到推荐系统的优化点

个人增加 5.逻辑推理:利用某些输入量的改变,看推荐系统的前后变化,是否符合输入量变化的预期,在业务角度是可以用逻辑解释的

个人认为AB测试是从工程角度评价推荐系统好坏的通用方法

推荐系统的两类指标:

1.系统有多好?

2.还能好多久?

系统好多久:是对推荐系统当前能力的一个评价。又可以分为两类指标

  1.深度:

  2.广度:

1.评分准确度:通常就是均方根误差RMSE,或者其他误差类指标(比如)。 

 2.排序

3.分类准确率,针对行为预测

4.评价准确率:一般讨论TopN准确率,TopK召回率

   假设有X个元素有正反馈,推荐列表包含正反馈元素个数为N个,推荐列表包含Y个元素(Y>=X) 

        准确率= N / Y

   召回率= N / Y

5.覆盖率:指系统在多少用户的身上开采成功了

6.失效率:

7.新颖性:

8.更新率

还能好多久?用户兴趣客观上是会变化的,数据源客观上也是会有用光的一天,评价系统好坏有三个指标:

1.个性化

2.基尼系数

3.多样性

 

标签:三十六,准确率,推荐,系统,用户,指标,测试,测试方法
来源: https://www.cnblogs.com/bladerunnerwhd/p/14797285.html