TF-IDF笔记整理
作者:互联网
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
还是比较简单的,整理了资料供大家观看。
tf(term frequency )-统计词频
idf(inverse document frequency)-逆文档频率
比如在多篇文档中一个词经常出现像to,I,is,这种词语不能作为关键词,所以idf就会让这种词的权重很小,这样tf-idf算法就会让在少数文档中而且词频还高的词tf-idf值大,按值的大小从大到小排序
参考资料
TF-IDF算法介绍及实现_Asia-Lee-CSDN博客_tf-idf
刘建平先生关于tf-idf的博客
标签:idf,笔记,IDF,frequency,词频,tf,TF 来源: https://blog.csdn.net/weixin_43332715/article/details/122274128