吴恩达机器学习笔记——十一、构建大型模型时的技巧
作者:互联网
吴恩达机器学习笔记——十一、构建大型模型时的技巧
1 合理选择特征
对于文本分类问题,我们选择特征时应该多方面考虑,比如:
- 单词首字母大小写十分认为是两个特征
- 单词词缀不同是否认为是两个单词(student students,deal, dealer)
- 标点符号的特征
- 拼写错误的单词(w4tch,i0s),这是垃圾邮件用来骗过检索系统的一种技巧。
- 邮件地址特征
2 要建立合适的误差分析指标
最好使用一个数值来评估不同模型针对同一问题的性能,这样可以便于提供改进算法的依据
3 不对称分类/偏斜类
背景:当对癌症患者或制造厂次品率进行预测分类时,因为癌症患者和次品率一般都很低,如果编写一个什么都不做直接把样本分为反例的算法可能误差比学习到的算法还好。
用查准率和查全率的指标来评价,详见周志华老师的《机器学习》
通过调整分类的阈值,可以调整查准率和查全率之间的侧重关系。
但是引入两率之后,就引入了两个误差评价指标,这与2是冲突的,因此,我们采用F值来评估,F值的表达式如下:
P是查准率,R是查全率
4 数据量问题
增大选取的特征数量可以减小偏差,前提是特征选取合适。
增大样本数可以减小方差。
标签:误差,吴恩达,特征,分类,笔记,单词,查全率,构建,查准率 来源: https://blog.csdn.net/lizhaoxin666/article/details/112847224