其他分享
首页 > 其他分享> > GIS-KG building a large-scale hierarchical knowledge graph for geographic information science

GIS-KG building a large-scale hierarchical knowledge graph for geographic information science

作者:互联网

GIS-KG building a large-scale hierarchical knowledge graph for geographic information science(GIS-KG: 为地理信息科学构建大规模的层次知识图谱)


0 Abstract

有组织的知识库可以促进现有知识的探索和领域中新兴主题的检测。关于地理信息科学及其相关系统技术 (GIS) 及其相关的知识是复杂、广泛且迅速出现的。迎接挑战,我们通过以下方式构建了一个 GIS 知识图谱 (GIS-KG):(1) 合并现有的 GIS 知识体系以创建分层本体,然后 (2) 应用深度学习方法将 GIS 出版物映射到本体。我们进行了几次信息检索实验,以评估 GIS-KG 的新颖性和有效性。结果表明,GIS-KG对现有GIS主题的知识搜索以及探索新兴研究主题的潜力提供了强有力的支持。


9 Conclusion

本文的前提是,系统组织的知识库对于领域专家进行科学研究、学术教育、技术培训和专业实践至关重要。如本文所示,我们通过将多个集合合并到一个本体中显着推进了全面 GIS&T 知识体系的愿景,并通过将科学出版物集合与该本体联系起来进一步增强了该工具。我们构建了一个大规模的分层地理信息科学技术知识图谱 GIS-KG,其中超过 50 万份出版物被组织在一个基于深度学习方法的集成 GIS 主题结构中。我们贡献的中心在于为UCGIS GIS & T BoK进行人工智能辅助的本体重新设计,它以全面的方式汇集了各种知识来源,利用现有专家的智慧高效地组织知识。在知识图谱构建过程中,我们成功地将自然语言处理技术迁移到 GIS 领域,并以 GIS 领域的语义相关性为基础。

我们通过执行 GIS 信息检索任务展示了该 GIS-KG 的实用性。 使用我们的 GIS-KG,我们提高了传统和深度学习方法的检索质量。我们提供对本工作中使用的所有数据和工具的开放访问,以帮助更广泛的领域社区了解 GIS-KG 本身的结构和内容,更重要的是,帮助在丰富且快速增长的科学背景下探索知识 出版物。

展望未来,这种全面的知识图将促进GIS领域的知识发现。我们寻求其他GIS专业团体的合作和投入,以推进GIS-KG并继续开发其框架。我们鼓励 GIS 社区进一步探索我们的 GIS-KG 并在其上构建更多应用程序。 我们相信这个新的知识图谱将成为社区的宝贵资源。


Chart

image-20220426093824424

Fig1: 本文的总体结构。步骤1是合并不同的知识体系,并为GIS构建统一的本体。第二步是将GIS知识资料与本体融合,形成综合的GIS-KG。然后,我们可以构建应用程序并评估GIS-KG。

image-20220426094058819

表1:关于我们用来创建新本体的知识体的关键信息。

image-20220426094201607

Fig2:我们的本体示例。 此图显示了从知识区域(根)到学习目标(叶)的示例路径。

image-20220426094328778

Fig3: 本体合并的工作流程。

image-20220426094422663

Table2: 论文数据集模式 (Wang等人,2019)。带下划线的字段是用于链接不同类别的常见字段。

image-20220426094529598

Fig4: 基于深度学习的匹配结构。本体和出版物使用相同的嵌入方法。 ERT 代表扩展表示文本。

image-20220426094641713

Table3: 信息检索任务的评估结果。 比较是在相应的 +G 方法和没有 G 方法之间进行的。 数字越大,结果越好。


1 Introduction

本文的贡献是:

本文的组织。 第 2 节介绍相关工作,第 3 节是项目的整体结构,第 4 节介绍我们如何通过合并现有知识图谱创建新的 GIS 本体,第5节介绍了我们如何收集知识材料以及对数据的初步研究,第 6 节介绍了最终 GIS-KG 的本体和知识材料融合方法,第 7 节使用信息检索应用程序来评估我们在本研究中构建的知识图谱,第 8 节讨论了这项工作的局限性和未来方向,第 9 节是结论。

已经进行了几项努力来系统地组织和研究GIS知识,包括书目研究和专家从头开始制作知识图谱。

2.1 Bibliometric analysis in GIS(GIS中的文献计量分析)

进行文献计量分析涉及研究有关科学主题的大量研究论文,以便对其进行概述。如果没有人工智能的帮助,这种努力仅限于年轻的科学领域,发表的研究论文数量有限。

2.2 GIS bodies of knowledge and ontological work(GIS 知识体系和本体论工作)

2.3 Information retrieval systems(信息检索系统)

2.4 Research with knowledge graphs(使用知识图进行研究)

3 Overview of this research

为像GIS这样年轻而充满活力的领域构建一个通用的综合知识图是一项复杂的任务,但其结果非常有用。我们的目标是创建一个大规模的分层知识图,在其中可以发现和探索GIS领域内的研究、教育和专业活动的核心。这将作为该领域的及时和基础科学知识库。

构建此知识图需要完成图 1 所示的以下步骤:

4 Building a unified ontology for GIS

如前所述,地理信息科学和技术领域存在多种知识体系和其他 GIS 特定能力的综合集合,但每一种都是由不同的组织为不同的目的而创建的,因此其内容中包含不同的元素。幸运的是,在这些集合中存在的一种类型的信息知识是学习目标或陈述的能力,因此可以从本体论中构建联系。虽然学习目标和能力在格式或意图上并不总是相同,但两者都是文本陈述,通常以动词开头,其活动可以为评估目的进行定量或定性测量。每个都描述了学生或从业者应该能够知道或做什么。 例如,UCGIS GIS&T BoK 主题“叠加”的学习目标之一是“演示为什么数据集的地理配准对任何地图叠加操作的成功至关重要”。

4.1 Sources for the GIS ontology

我们使用以下知识体系和能力模型来构建我们的分层本体(见表 1):

虽然没有明确标记,但这些来自 GTCM、GMCM 和 DACUM 的能力集合类似于在 GIS 领域工作的专业人员的“知识体系”。学习目标和能力或任务在形式或意图上并不相同,但它们大致相似的目的足以包含在这个本体中,特别是因为我们的目标是涵盖广泛领域的学术和专业 GIS 知识。

4.2 Reconciling the sources(调和来源)

将这些资源视为可以集成或合并的知识集合是我们本体工作的基础。从头开始构建有价值的本体是一项艰巨的工作,可以通过领域专家的贡献成功完成。 在这种情况下,这些知识已经存在于这些集合中,这些知识是通过 GIS 专家早期的合作努力产生的。这些来源是地理信息系统社区所熟知的。我们能够仔细比较这些集合,并确定来源的共同组成部分,如学习目标和能力 (表1)。他们的存在在我们的来源允许他们成为合适的锚点的本体工程和促进我们的排名集合之间的亲缘关系进行了合并。最后,进行了手动检查以确保我们的本体是完整且一致的。 此工作流程如图 3 所示。为了系统地组织我们的本体,我们使用了基于 UCGIS GIS&T BoK 的 4 级层次结构树结构。顶级 (根) 级别是当前的十个知识领域: 基础概念,知识经济,计算平台,编程和开发,数据捕获,数据管理,分析和建模,制图和可视化以及领域应用程序。每个知识领域都有一个简短的描述。 第二层是单元,第三层是主题。 我们将学习目标称为第四层,因为学习目标存在于每个主题中,并表明了主题的重点。 有关示例,请参见图 2。

4.3 Relatedness ranking

为了合并这些集合,我们找到了它们相似的实体,并推断出需要在我们的新本体中添加或删除的相关实体。

我们首先定义了简单表示文本(或 SRT)和扩展表示文本(或 ERT)。 SRT 是用于描述本体实体本身的文本。 ERT 是 SRT 的扩展,包含用于添加 SRT 相关实体的图结构信息。

以 UCGIS GIS&T BoK 为例,知识领域的简单表示是它的名称和简短描述。 对于其他级别,识别单元、主题和学习目标的文本是他们的 SRT。ERT 由一组基于 Wordnet (Miller 1998) 的 SRT 的同义词加上相邻级别的 SRT 组成。 对于第四级节点(学习目标),ERT 是从第一级(知识领域)到学习目标的路径中的整个 SRT。一个主题可能包含多个学习目标,因此我们将一个主题的 ERT 定义为其所有学习目标的 SRT。

例如,第三级 SRT 是“模糊聚合运算符”加上同义词‘“fuzzed”, “fuzzy”, “bleary”, “blurred”, “blurry”, “foggy”, “hazy”, “muzzy”, “aggregation”, “accu­
mulation”, “assemblage”, “collection”, “collecting”, “assembling”, “aggregation”, “manipula­
tor”, “operator”’.

相应的 ERT 将是第二和第四级“规模和分区问题”和“比较和对比布尔和模糊逻辑运算”中的文本; 比较和对比几种模糊聚合的算子,包括相交和并集的算子;举例说明模糊聚合算子的一种用法; 描述如果区域边界模糊而不是清晰,地图叠加分析的方法可能会有所不同; 描述模糊聚合算子。

我们使用 \(h_{s}^{\prime}\) 和 \(h_{e}^{\prime}\) 来表示学习目标(l)的简单表示文本(SRT)和扩展表示文本(ERT)的表示,\(h_{s}^{t}\) 和 \(h_{e}^{t}\) 为 topic(t) 的 SRT 和 ERT, \(h_{s}^{u}\) 为 unit 的 SRT, \(h_{s}^{k}\) 为 知识领域 (k) 的 SRT。 等式 1 和 2 显示了主题 ERT 的计算和学习目标 ERT 的计算。

\[h_{e}^{\prime}=h_{s}^{\prime}+h_{s}^{t}+h_{s}^{u}+h_{s}^{k} \tag{1} \]

\[h_{e}^{t}=\sum_{i \in T} h_{s}^{\prime}(i)+h_{s}^{t} \tag{2} \]

接下来,从SRT和ERT中提取 Bag-of-words 嵌入。Bag-of-words 嵌入构建了一个 n 维字典(n 是单词的数量),并根据字典中的单词出现来表示文本。词干用于删除单词中的任何屈折词缀(Manning et al. 2008)。例如,“discover”是“discovering”、“discovered”和“discovery”的词干形式。 为了只捕获关键信息,我们对所有文本进行了词干化处理。我们还删除了诸如“a”、“the”和“is”之类的停用词(有关停用词的完整列表,请参见 (Bird et al. 2009))。公式1和2中使用的 Bag-of-words 嵌入h通过公式 3中所示的术语频率-逆文档频率进行归一化:

\[\mathrm{tf}-\mathrm{idf}(\mathrm{t}, \mathrm{d})=\operatorname{tf}(\mathrm{t}, \mathrm{d}) \times \mathrm{idf}(\mathrm{t}) \tag{3} \]

其中术语频率 (tf) 是术语 (t) 在给定文档 (d) 中出现的次数。逆文档频率 (idf) 计算为

\[\operatorname{idf}(t)=\log \frac{1+n}{1+\operatorname{df}(t)}+1 \tag{4} \]

其中n是SRT的总数,\(\operatorname{df}(i)\) 是包含术语 t 的SRT的数量。

相关性是通过不同主题的Bag-of-words 嵌入ERT \(h_{e}^{t}\) 之间的余弦相似性来衡量的。同样地,学习目标相关性被定义为ERT中不同单词包之间的余弦相似性。假设ERT的bag-of-words嵌入表示是n维向量,则2 ERT之间的余弦相似度定义为:

\[\cos \left(h_{e}(a), h_{e}(b)\right)=\frac{\mathbf{a b}}{\|\mathbf{a}\|\|\mathbf{b}\|}=\frac{\sum_{i=1}^{n} a_{i} b_{i}}{\sqrt{\sum_{i=1}^{n}\left(a_{i}\right)^{2}} \sqrt{\sum_{i=1}^{n}\left(b_{i}\right)^{2}}} \tag{5} \]

相关性得分可用于衡量我们的源集合之间的相似性,并可用于向读者推荐相关主题或学习目标。它还显示了这些不同的 GIS 知识集合之间的关系。 在我们检查了所有可能的 ERT 对之后,我们发现一些主题和学习目标表现出低相关性,表明它们是独立的,或者可能是可以添加到本体中的新知识。相关性得分还有助于识别主题何时具有相似性,否则由于它们在层次结构中的各自位置而可能无法观察到的相似性。

毫不奇怪,相关性测量显示,这些现有的 GIS 知识体系和其他集合在很大程度上重叠,但也存在差异。

我们在其他地方发现了 UCGIS GIS&T BoK 2020 年第一季度版本中没有的 45 个主题。

尽管相关性排名会自动识别不同来源之间的重叠并指示独立的组件,但它没有能力生成新的本体并确保添加主题的逻辑一致性,因此 “human-in-the-loop” 在这里是必要的。我们和我们大学的其他GIS专家手动考虑了这些主题中的每个主题,以决定是否应将其及其学习目标添加到本体中。我们遵循包含原则:如果 y 仅出现在 x 出现的文档子集中,则术语 x 包含 y (Nyerges et al. 2014)。将低相关性实体添加到本体的底层,并通过相关性来标识父节点。最后,语义相似性过程帮助我们识别并添加了 12 个主题和 116 个学习目标到派生的本体中。我们合并的层次本体有 10 个知识领域、96 个单元、412 个主题和 1583 个学习目标。

5 Collecting additional GIS knowledge

6 Fusing the GIS knowledge

6.1 Feature selection

6.2 Deep learning-based matching

7 Knowledge retrieval as an application of our GIS-KG

7.1 Analysis procedure

7.2 Evaluation procedures and metrics

7.3 Experiment results

8 Discussion

标签:building,information,scale,GIS,知识,学习,本体,KG,我们
来源: https://www.cnblogs.com/chaoyuan-mao/p/16196022.html