java – Spark TF-IDF从哈希中获取单词
作者:互联网
我正在跟踪Spark文档中的this example以计算一堆文档的TF-IDF. Spark使用散列技巧进行此计算,所以最后你得到一个包含散列词和相应权重的Vector但是……我如何从哈希中取回单词?
我是否真的需要哈希所有单词并将它们保存在地图中以便以后迭代查找关键字?内置Spark没有更有效的方法吗?
提前致谢
解决方法:
在HashingTF中将String转换为散列导致使用org.apache.spark.util.Utils.nonNegativeMod(int, int)在0和numFeatures(默认为2 ^ 20)之间的正整数.
原来的字符串丢失了;无法将结果整数转换为输入字符串.
标签:java,apache-spark,hash,tf-idf 来源: https://codeday.me/bug/20190722/1505827.html