首页 > 其他分享> > 模型评估和选择

模型评估和选择

2021-11-17 01:01:53 作者：互联网

可用模型很多：不同的算法产生不同的模型，相同的算法用不同的参数也产生不同的模型。

怎么选？使用训练误差最小的那个模型？显然不行，过拟合问题。

模型选择涉及两个问题：一是评估方案的实验设计问题，这方面主要是如何从已有数据中分离出测试数据集，二是评估度量问题，即各种指标，诸如RMSE，精度等。

理想方案：选择一个泛化误差最小的模型。
　　问题：无法获得未知的新样本，无法直接得到泛化误差

解决方案：设计实验，使用测试集
　　使用测试集，用测试集上的误差来作为泛化误差的近似
　　假设测试集是所有样本的独立同分布
　　准备测试集的注意事项：
　　　　要与训练集互斥，测试数据不要再训练数据中出现过
　　　　为什么？老师出了10道题目给学生练习，为了考察学生的掌握程度，考试的时候还要这个10到题目吗？

实际应用中，模型的选择不仅要考虑误差，还要考虑计算时间、空间开销和可解释性等多方面的问题。

测试集的产生方法
　　留出法：需要注意的三个问题：
　　　　1. 保持训练集和测试集分布一致性：采用分层抽样
　　　　2. 训练/测试集划分有不同的方式，可用多次划分，取测试集误差平均值作为泛化误差
　　　　3. 测试集划分的不能太多，太多导致训练数据太少，训练模型不可靠（偏差大）；测试数据划分的太少也不行，太少导致评估结果不可靠（方差大），常用1/3或1/5作为测试数据
　　交叉验证
　　自助法：对m个样本数据，有放回的进行抽样，抽取m个样本当作训练数据，没有被抽到的样本当作测试数据。适用于数据量比较小的时候。

标签：误差,泛化,训练,模型,测试数据,选择,测试,评估
来源： https://www.cnblogs.com/luckyboy314/p/15564609.html