首页 > 编程语言> > jieba库中基于 TextRank 算法的关键词抽取——源代码分析（四）

jieba库中基于 TextRank 算法的关键词抽取——源代码分析（四）

2021-10-29 16:03:04 作者：互联网

2021SC@SDUSC
2021SC@SDUSC
Text Rank第二步——以固定窗口大小，词之间的共现关系，构建图
在源代码分析（一）、（二）、（三）中主要针对TextRank算法中第一步——分词，进行分析。从本篇文章中开始继续分析textrank.py进行分析。

def textrank(self, sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False):
        """
        Extract keywords from sentence using TextRank algorithm.
        Parameter:
            - topK: return how many top keywords. `None` for all possible words.
            - withWeight: if True, return a list of (word, weight);
                          if False, return a list of words.
            - allowPOS: the allowed POS list eg. ['ns', 'n', 'vn', 'v'].
                        if the POS of w is not in this list, it will be filtered.
            - withFlag: if True, return a list of pair(word, weight) like posseg.cut
                        if False, return a list of words
        """
        self.pos_filt = frozenset(allowPOS)	 #初始化关键字词性过滤条件
        g = UndirectWeightedGraph() #定义无向有权图
        cm = defaultdict(int) #定义共现词典
        words = tuple(self.tokenizer.cut(sentence))    #分词，使用cut方法

这些代码，尤其是分词部分，之前已经在文章中详细分析过，那么接着往下进行分析。

接下来是for循环，主要是对第一步分词得到的结果进行遍历处理，实现TextRank的第二步，词之间的共现，也就是词之间的连接，因为TextRank的算法中计算词rank需要基于上下文中词的rank。

for i, wp in enumerate(words):  #遍历cut之后的分词结果(i,wp)，对其进行处理
            if self.pairfilter(wp):  #判断词wp是否符合代提取关键词的条件
                #span是滑动窗口，在这里取的j是i词的下文，这里实现词的共现，即词之间的连接关系
                for j in xrange(i + 1, i + self.span): 
                    if j >= len(words):  #判断词的范围是否在分词结果中
                        break
                    #判断i词的后向词j词是否也符合关键词的条件，不符合，则跳过
                    if not self.pairfilter(words[j]):  
                        continue
                    #将i词和j词作为关键词，出现的次数作为值，添加到共现词典中
                    #即在第三步中，将两词作为无向有权图中一条边的两个节点，出现的次数作为权重
                    if allowPOS and withFlag:  
                        cm[(wp, words[j])] += 1
                    else:
                        cm[(wp.word, words[j].word)] += 1

这里主要是细节部分，首先在进行词的共现时，要先判断词是否符合关键词的提取条件，并且不仅i词，j词也要判断，因为TextRank中考虑的是关键词之间的联系，而不是与任意关键词之间的联系。

那么这就是TextRank实现过程中的第二步——实现词的共现的主要代码及分析，下篇文章我们会主要分析TextRank第三步无向有权图部分。

标签：jieba,库中,self,list,words,wp,源代码,分词,TextRank
来源： https://blog.csdn.net/qq_47229425/article/details/121013631