推荐系统基本概念
作者:互联网
目录
特征
多值特征
- 如论文的关键字描述信息;商品信息的描述;网站关键词
- 常见处理
- count: 计算多值特征中有多少个值
- LabelEncoder(将一列文本数据转化成数值): 如果特征存在明显的聚集效应,很多多值特征组合在一起就是一个有意义的信息,例如,文章关键词里面的:SVM|监督学习;商品里面的,女生|连衣裙;等等,这些词组合在一起就是很有意义的一类信息,可以直接LabelEncoder进行编码
- Multi One-Hot: 每个不同的值对应一列特征,出现了就是1没出现就是0
- CounterVector: 统计了每个词在当前文本下的出现次数,如果每个关键词在当前的Multi-Value特征中都是唯一的值的时候,那么CounterVector就和One-Hot等价
- TfidfVectorizer: 可以认为是CounterVector的扩展,它还考虑了在上下文中文本的出现次数
- Word2Vec
标签:Multi,特征,推荐,关键词,系统,多值,文本,CounterVector,基本概念 来源: https://www.cnblogs.com/yao1996/p/14984613.html