其他分享
首页 > 其他分享> > 自然语言处理(NLP)之依存句法分析的可视化及图分析

自然语言处理(NLP)之依存句法分析的可视化及图分析

作者:互联网

自然语言处理(NLP)之依存句法分析的可视化及图分析

依存句法分析的效果虽然没有像分词、NER的效果来的好,但也有其使用价值,在日常的工作中,我们免不了要和其打交道。如何分析依存句法分析的结果,一个重要的方面便是其可视化和它的图分析。

我们使用的NLP工具为jieba和LTP,其中jieba用于分词,LTP用于词性标注和句法分析,需要事件下载pos.modelparser.model文件。

本文使用的示例句子为:

2018年7月26日,华为创始人任正非向5G极化码(Polar码)之父埃尔达尔教授举行颁奖仪式,表彰其对于通信领域做出的贡献。

首先,让我们来看一下没有可视化效果之前的句法分析结果。Python代码如下:

import os
import jieba
from pyltp import Postagger, Parser

sent = '2018年7月26日,华为创始人任正非向5G极化码(Polar码)之父埃尔达尔教授举行颁奖仪式,表彰其对于通信领域做出的贡献。'

jieba.add_word('Polar码')
jieba.add_word('5G极化码')
jieba.add_word('埃尔达尔')
jieba.add_word('之父')
words = list(jieba.cut(sent))

print(words)

# 词性标注
pos_model_path = os.path.join(os.path.dirname(__file__), 'pos.model')
postagger = Postagger()
postagger.load(pos_model_path)
postags = postagger.postag(words)

# 依存句法分析
par_model_path = os.path.join(os.path.dirname(__file__), 'parser.model')
parser = Parser()
parser.load(par_model_path)
arcs = parser.parse(words, postags)

rely_id = [arc.head for arc in arcs]  # 提取依存父节点id
relation = [arc.relation for arc in arcs]  # 提取依存关系
heads = ['Root' if id == 0 else words[id - 1] for id in rely_id]  # 匹配依存父节点词语

for i in range(len(words)):
    print(relation[i] + '(' + words[i] + ', ' + heads[i] + ')')

运行结果:

['2018', '年', '7', '月', '26', '日', ',', '华为', '创始人', '任正非', '向', '5G极化码', '(', 'Polar码', ')', '之父', '埃尔达尔', '教授', '举行', '颁奖仪式', ',', '表彰', '其', '对于', '通信', '领域', '做出', '的', '贡献', '。']
ATT(2018, 年)
ATT(年, 日)
ATT(7, 月)
ATT(月, 日)
ATT(26, 日)
ADV(日, 举行)
WP(,, 日)
ATT(华为, 创始人)
ATT(创始人, 任正非)
SBV(任正非, 举行)
ADV(向, 举行)
ATT(5G极化码, 之父)
WP((, Polar码)
COO(Polar码, 5G极化码)
WP(), Polar码)
ATT(之父, 埃尔达尔)
ATT(埃尔达尔, 教授)
POB(教授, 向)
HED(举行, Root)
VOB(颁奖仪式, 举行)
WP(,, 举行)
COO(表彰, 举行)
ATT(其, 贡献)
ADV(对于, 做出)
ATT(通信, 领域)
POB(领域, 对于)
ATT(做出, 贡献)
RAD(的, 做出)
VOB(贡献, 表彰)
WP(。, 举行)

我们得到了该句子的依存句法分析的结果,但是其可视化效果却不好。
  我们使用Graphviz工具来得到上述依存句法分析的可视化结果,代码(接上述代码)如下:

from graphviz import Digraph

g = Digraph('测试图片')

g.node(name='Root')
for word in words:
    g.node(name=word)

for i in range(len(words)):
    if relation[i] not in ['HED']:
        g.edge(words[i], heads[i], label=relation[i])
    else:
        if heads[i] == 'Root':
            g.edge(words[i], 'Root', label=relation[i])
        else:
            g.edge(heads[i], 'Root', label=relation[i])

g.view()

得到的依存句法分析的可视化图片如下:

此时出现了中文乱码问题,多半是因为没有设置fontname为支持中文显示的字体,只需要把node或者edge的fontname="Microsoft YaHei",即可正常显示

from graphviz import Digraph

g = Digraph('测试图片')

g.node(name='Root')
for word in words:
    g.node(name=word, fontname="Microsoft YaHei")

for i in range(len(words)):
    if relation[i] not in ['HED']:
        g.edge(words[i], heads[i], label=relation[i])
    else:
        if heads[i] == 'Root':
            g.edge(words[i], 'Root', label=relation[i])
        else:
            g.edge(heads[i], 'Root', label=relation[i])

g.view()

在这张图片中,我们有了对依存句法分析结果的直观感觉,效果也非常好,但是遗憾的是,我们并不能对上述可视化结果形成的图(Graph)进行图分析,因为Graphviz仅仅只是一个可视化工具。那么,我们该用什么样的工具来进行图分析呢?

答案就是NetworkX。以下是对于NetworkX应用于依存句法分析的可视化和图分析的展示,其中图分析展示了两个节点之间的最短路径。示例的Python代码如下:

# 利用networkx绘制句法分析结果
import networkx as nx
import matplotlib.pyplot as plt
from pylab import mpl

mpl.rcParams['font.sans-serif'] = ['Arial Unicode MS']  # 指定默认字体

G = nx.Graph()  # 建立无向图G

# 添加节点
for word in words:
    G.add_node(word)

G.add_node('Root')

# 添加边
for i in range(len(words)):
    G.add_edge(words[i], heads[i])

source = '5G极化码'
target1 = '任正非'
distance1 = nx.shortest_path_length(G, source=source, target=target1)
print("'%s'与'%s'在依存句法分析图中的最短距离为:  %s" % (source, target1, distance1))

target2 = '埃尔达尔'
distance2 = nx.shortest_path_length(G, source=source, target=target2)
print("'%s'与'%s'在依存句法分析图中的最短距离为:  %s" % (source, target2, distance2))

nx.draw(G, with_labels=True)
plt.savefig("undirected_graph.png")

运行结果:

'5G极化码'与'任正非'在依存句法分析图中的最短距离为:  6
'5G极化码'与'埃尔达尔'在依存句法分析图中的最短距离为:  2

得到的可视化图片如下:

graphviz中文乱码问题以及颜色等属性设置:

from graphviz import Digraph

digraph = Digraph("中文图片")

digraph.node(name="a", label="木", color="#00CD66", style="filled", fontcolor="white", fontname="Microsoft YaHei")
digraph.node(name="b", label="火", color="#FF4500", style="filled", fontcolor="white", fontname="Microsoft YaHei")
digraph.node(name="c", label="土", color="#CD950C", style="filled", fontcolor="white", fontname="Microsoft YaHei")
digraph.node(name="d", label="金", color="#FAFAD2", style="filled", fontcolor="#999999", fontname="Microsoft YaHei")
digraph.node(name="e", label="水", color="#00BFFF", style="filled", fontcolor="white", fontname="Microsoft YaHei")

digraph.edge("a", "b", label="木生火", color="#FF6666", fontcolor="#FF6666", fontname="Microsoft YaHei")
digraph.edge("b", "c", label="火生土", color="#FF6666", fontcolor="#FF6666", fontname="Microsoft YaHei")
digraph.edge("c", "d", label="土生金", color="#FF6666", fontcolor="#FF6666", fontname="Microsoft YaHei")
digraph.edge("d", "e", label="金生水", color="#FF6666", fontcolor="#FF6666", fontname="Microsoft YaHei")
digraph.edge("e", "a", label="水生木", color="#FF6666", fontcolor="#FF6666", fontname="Microsoft YaHei")

digraph.edge("a", "c", label="木克土", color="#333333", fontcolor="#333333", fontname="Microsoft YaHei")
digraph.edge("c", "e", label="土克水", color="#333333", fontcolor="#333333", fontname="Microsoft YaHei")
digraph.edge("e", "b", label="水克火", color="#333333", fontcolor="#333333", fontname="Microsoft YaHei")
digraph.edge("b", "d", label="火克金", color="#333333", fontcolor="#333333", fontname="Microsoft YaHei")
digraph.edge("d", "a", label="金克木", color="#333333", fontcolor="#333333", fontname="Microsoft YaHei")

digraph.view()

运行结果:

 

标签:NLP,及图,句法分析,fontname,label,edge,words,Microsoft
来源: https://blog.csdn.net/weixin_44799217/article/details/116644677