《推荐三十六式》工程篇之推荐系统的测试方法及常用指标介绍
作者:互联网
------------恢复内容开始------------
传统工程的测试结果是有预期的,推荐系统的预期是高维空间中的一个区域。推荐系统的测试方法有四种:
1.业务规则扫描
利用提前编写好的测试用例去验证相关逻辑是否正确
2.离线模拟测试
构造模拟数据,对推荐系统进行测试,看某些结果是否符合预期
3.在线对比测试
即ABTest,分流量对新老系统进行测试,看新的系统是否比老的系统更加优秀
4.用户访谈
因为数据是系统的外在表现,并不能得到系统的原理,而且数据指标是人设计的,指标是具有主观性和片面性的
用户访谈更重要的是对于推荐系统指标的讨论,指标是否能反映出预期的结果。更接近用户,可以找到推荐系统的优化点
个人增加 5.逻辑推理:利用某些输入量的改变,看推荐系统的前后变化,是否符合输入量变化的预期,在业务角度是可以用逻辑解释的
个人认为AB测试是从工程角度评价推荐系统好坏的通用方法
推荐系统的两类指标:
1.系统有多好?
2.还能好多久?
系统好多久:是对推荐系统当前能力的一个评价。又可以分为两类指标
1.深度:
2.广度:
1.评分准确度:通常就是均方根误差RMSE,或者其他误差类指标(比如)。
2.排序
3.分类准确率,针对行为预测
4.评价准确率:一般讨论TopN准确率,TopK召回率
假设有X个元素有正反馈,推荐列表包含正反馈元素个数为N个,推荐列表包含Y个元素(Y>=X)
准确率= N / Y
召回率= N / Y
5.覆盖率:指系统在多少用户的身上开采成功了
6.失效率:
7.新颖性:
8.更新率
还能好多久?用户兴趣客观上是会变化的,数据源客观上也是会有用光的一天,评价系统好坏有三个指标:
1.个性化
2.基尼系数
3.多样性
标签:三十六,准确率,推荐,系统,用户,指标,测试,测试方法 来源: https://www.cnblogs.com/bladerunnerwhd/p/14797285.html