人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 5.PageRank技术
作者:互联网
PageRank技术
使用PageRank技术可以用来对抗词项作弊(term spam)。
问题:词项作弊。是一种欺骗搜索引擎让其相信一个本来不相关的页面,使其排名靠前的技术。
解决方案:使用PageRank技术来模拟web冲浪者的行为,这些冲浪者从随机页面出发,每次从当前页面随机选择出链前行,该过程可以迭代多次。最终,这些冲浪者会在页面上汇合。较多冲浪者访问的网页重要性被认为高于那些高于那些较少冲浪者访问的网页。
在判断网页内容时,不仅考虑网页上出现的词项,还考虑指向给网页的链接中或周围所使用的词项。
PageRank技术的动机
PageRank定义
PageRank是一个函数,它对web中(或者至少是抓取并发现其中链接关系的一部分网页)的每个网页赋予一个实数值。它的意图在于,网页的PageRank越高,那么它就越“重要”。
TrustRank是面向主题的PageRank
HITS(hyperlink-induced topic search)在查询处理过程中用于与查询相关的结果的排序。
Web是一个图 Graph
作为有向图:directed graph
pageRank好处
pageRank分数实例
随机游走 random walk 的表达
计算pageRank
PageRank存在的问题和解决方案
问题:衡量一个页面是具有普遍意义的受欢迎程度
问题:使用单一重要的衡量指标
问题:容易链接到欺骗网页
标签:11,web,网页,4.3,冲浪者,PageRank,数据挖掘,词项,页面 来源: https://blog.csdn.net/fsdaewrq/article/details/104661570