GIS-KG building a large-scale hierarchical knowledge graph for geographic information science
作者:互联网
GIS-KG building a large-scale hierarchical knowledge graph for geographic information science(GIS-KG: 为地理信息科学构建大规模的层次知识图谱)
0 Abstract
有组织的知识库可以促进现有知识的探索和领域中新兴主题的检测。关于地理信息科学及其相关系统技术 (GIS) 及其相关的知识是复杂、广泛且迅速出现的。迎接挑战,我们通过以下方式构建了一个 GIS 知识图谱 (GIS-KG):(1) 合并现有的 GIS 知识体系以创建分层本体,然后 (2) 应用深度学习方法将 GIS 出版物映射到本体。我们进行了几次信息检索实验,以评估 GIS-KG 的新颖性和有效性。结果表明,GIS-KG对现有GIS主题的知识搜索以及探索新兴研究主题的潜力提供了强有力的支持。
9 Conclusion
本文的前提是,系统组织的知识库对于领域专家进行科学研究、学术教育、技术培训和专业实践至关重要。如本文所示,我们通过将多个集合合并到一个本体中显着推进了全面 GIS&T 知识体系的愿景,并通过将科学出版物集合与该本体联系起来进一步增强了该工具。我们构建了一个大规模的分层地理信息科学技术知识图谱 GIS-KG,其中超过 50 万份出版物被组织在一个基于深度学习方法的集成 GIS 主题结构中。我们贡献的中心在于为UCGIS GIS & T BoK进行人工智能辅助的本体重新设计,它以全面的方式汇集了各种知识来源,利用现有专家的智慧高效地组织知识。在知识图谱构建过程中,我们成功地将自然语言处理技术迁移到 GIS 领域,并以 GIS 领域的语义相关性为基础。
我们通过执行 GIS 信息检索任务展示了该 GIS-KG 的实用性。 使用我们的 GIS-KG,我们提高了传统和深度学习方法的检索质量。我们提供对本工作中使用的所有数据和工具的开放访问,以帮助更广泛的领域社区了解 GIS-KG 本身的结构和内容,更重要的是,帮助在丰富且快速增长的科学背景下探索知识 出版物。
展望未来,这种全面的知识图将促进GIS领域的知识发现。我们寻求其他GIS专业团体的合作和投入,以推进GIS-KG并继续开发其框架。我们鼓励 GIS 社区进一步探索我们的 GIS-KG 并在其上构建更多应用程序。 我们相信这个新的知识图谱将成为社区的宝贵资源。
Chart
Fig1: 本文的总体结构。步骤1是合并不同的知识体系,并为GIS构建统一的本体。第二步是将GIS知识资料与本体融合,形成综合的GIS-KG。然后,我们可以构建应用程序并评估GIS-KG。
表1:关于我们用来创建新本体的知识体的关键信息。
Fig2:我们的本体示例。 此图显示了从知识区域(根)到学习目标(叶)的示例路径。
Fig3: 本体合并的工作流程。
Table2: 论文数据集模式 (Wang等人,2019)。带下划线的字段是用于链接不同类别的常见字段。
Fig4: 基于深度学习的匹配结构。本体和出版物使用相同的嵌入方法。 ERT 代表扩展表示文本。
Table3: 信息检索任务的评估结果。 比较是在相应的 +G 方法和没有 G 方法之间进行的。 数字越大,结果越好。
1 Introduction
本文的贡献是:
- (1) GIS知识的扩展。通过知识融合方法,我们定义了一个 GIS 知识图 (GIS-KG),它揭示了 GIS 概念和不同源材料(包括现有的 GIS 知识和能力集合,以及大量科学出版物)之间的异构关系。融合本身基于语义相似性和领域专家知识。 这种类型的半自动融合用于在合并多个知识体时识别相关实体。合并本体的结构和语义支持输入材料的组织,从而更广泛地捕获跨 GIS 领域的知识。
- (2) 新颖的方法。我们设计了一种新颖的基于深度学习的方法来支持知识融合框架。我们的方法利用先进的深度学习模型来衡量和理解本体与已发表的研究论文之间的语义相似性。我们进一步扩展了这种方法以创建新颖的 GIS 知识搜索系统。
- (3) 广泛的评估和基准数据。我们通过使用针对 GIS 知识的特定信息检索方法来评估 GIS-KG 的稳健性。通过使用 GIS-KG 进行信息搜索,我们返回的结果的准确性和相关性几乎是其他基于 Internet 的搜索的 20 倍。 这些进步将成为检索 GIS 知识的新基准。
本文的组织。 第 2 节介绍相关工作,第 3 节是项目的整体结构,第 4 节介绍我们如何通过合并现有知识图谱创建新的 GIS 本体,第5节介绍了我们如何收集知识材料以及对数据的初步研究,第 6 节介绍了最终 GIS-KG 的本体和知识材料融合方法,第 7 节使用信息检索应用程序来评估我们在本研究中构建的知识图谱,第 8 节讨论了这项工作的局限性和未来方向,第 9 节是结论。
2 Related work
已经进行了几项努力来系统地组织和研究GIS知识,包括书目研究和专家从头开始制作知识图谱。
2.1 Bibliometric analysis in GIS(GIS中的文献计量分析)
进行文献计量分析涉及研究有关科学主题的大量研究论文,以便对其进行概述。如果没有人工智能的帮助,这种努力仅限于年轻的科学领域,发表的研究论文数量有限。
2.2 GIS bodies of knowledge and ontological work(GIS 知识体系和本体论工作)
2.3 Information retrieval systems(信息检索系统)
2.4 Research with knowledge graphs(使用知识图进行研究)
3 Overview of this research
为像GIS这样年轻而充满活力的领域构建一个通用的综合知识图是一项复杂的任务,但其结果非常有用。我们的目标是创建一个大规模的分层知识图,在其中可以发现和探索GIS领域内的研究、教育和专业活动的核心。这将作为该领域的及时和基础科学知识库。
构建此知识图需要完成图 1 所示的以下步骤:
- 步骤1。形成GIS的统一本体。在此步骤中构建的本体是知识图的主干。我们首先确定了现有的知识和能力模型体系,并将它们合并为一个单一的层次结构。我们利用文本相似性和结构信息进行自动实体解析和对齐。合并后执行手动检查以完善本体。此步骤的详细信息可在第 4 节中找到。
- 步骤 2. 丰富 GIS 知识。然后,我们从开源中收集了大量与 GIS 相关的研究论文和相关信息(Tang et al. 2008, Sinha et al. 2015)。我们在第一步开发的本体为我们分离和组织以GIS为重点的研究出版物提供了足够的信息。除了论文的标题和摘要之外,我们还捕获了引文和地点特征作为附加信息。我们使用并行计算技术来处理大量基于文本的非结构化数据,并对生成的数据集进行基本分析。结果是一种新颖的基于深度学习的方法,将论文与本体进行匹配,形成最终的GIS-KG。此步骤的详细信息可在第5节和第6节中找到。
- 步骤 3. 评估和应用。为了评估 GIS-KG 的实用性,我们构建了几个应用程序来说明它的好处。我们对基于用户查询返回出版物的信息检索任务进行了一系列实验。GIS-KG增强了传统和先进的搜索方法。最后,开发了一个基于网络的系统,供用户进一步探索GIS-KG,如第7节所示。
4 Building a unified ontology for GIS
如前所述,地理信息科学和技术领域存在多种知识体系和其他 GIS 特定能力的综合集合,但每一种都是由不同的组织为不同的目的而创建的,因此其内容中包含不同的元素。幸运的是,在这些集合中存在的一种类型的信息知识是学习目标或陈述的能力,因此可以从本体论中构建联系。虽然学习目标和能力在格式或意图上并不总是相同,但两者都是文本陈述,通常以动词开头,其活动可以为评估目的进行定量或定性测量。每个都描述了学生或从业者应该能够知道或做什么。 例如,UCGIS GIS&T BoK 主题“叠加”的学习目标之一是“演示为什么数据集的地理配准对任何地图叠加操作的成功至关重要”。
4.1 Sources for the GIS ontology
我们使用以下知识体系和能力模型来构建我们的分层本体(见表 1):
- UCGIS GIS&T BoK (DiBiase等人2006) 2006 BoK的目的是记录地理信息科学及其相关技术的领域,但其原始2006内容仅包括主题标题和学习目标,在知识领域内进行分组和分层排列。当前的GIS & T BoK继续开发和扩展,以便每个主题包括一个更长的和详细的描述性叙述,除了学习目标,但只有大约40% 的主题已经完成2020年3月的版本,我们提取利用在这项研究。因此,我们的输入包括已经扩展的主题,以及2006年以来只有学习目标的主题。我们提取的背景包括10个知识领域(第一级)、96个单元(第二级)、401个主题(第三级)和1467个学习目标(第四级)。如表1所示。
- 基本知识体系 (EBK) 来自USGIF (Johnson 2019)。其内容仅限于主题标题和学习目标,但将其学习目标区分为等级熟练程度。它具有五个能力 (第一级),80个主题 (第二级),946个子主题 (第三级),1285个学习目标 (第四级)。EBK中的子主题也分为四个不同的熟练程度级别 (先决条件,基础,应用和掌握)。
- 地理空间技术能力模型 (GTCM) (DiBiase et al. 2010)。GTCM 的一般学术和工作能力(例如批判性思考或计划和组织的能力)超出了我们以 GIS 为重点的研究范围,但其“行业范围的技术能力”和“行业技术能力”都是与 GIS 相关的目标。它在第一级有五个能力,然后能力与单个或多个职业相关联(第二级)。 每个职业的详细页面包含该职业的学习目标(第三级)。
- 地理空间管理能力模型 (GMCM) (Babinski 2012) 是地理空间技术能力模型的衍生物。它以矩阵形式存在,包括 74 行对应于大多数地理空间管理人员需要能够执行的关键工作功能和 18 列对应于能力领域。该矩阵表示能力和工作职能之间的关联。
- 开发课程 (DACUM) 工作分析 (Johnson 2010)。在地质技术中心组织的这一过程中,进行了电子调查和面对面的小组会议,以向大量 GIS 专业人员询问他们的日常工作活动和实践。结果成为学习目标,构成了未来GIS专业人员课程的基础。最近,整理了2008-2018年各个DACUM面板的结果,然后使用回归分析对其进行数学排名,以得出最终的DACUM。
虽然没有明确标记,但这些来自 GTCM、GMCM 和 DACUM 的能力集合类似于在 GIS 领域工作的专业人员的“知识体系”。学习目标和能力或任务在形式或意图上并不相同,但它们大致相似的目的足以包含在这个本体中,特别是因为我们的目标是涵盖广泛领域的学术和专业 GIS 知识。
4.2 Reconciling the sources(调和来源)
将这些资源视为可以集成或合并的知识集合是我们本体工作的基础。从头开始构建有价值的本体是一项艰巨的工作,可以通过领域专家的贡献成功完成。 在这种情况下,这些知识已经存在于这些集合中,这些知识是通过 GIS 专家早期的合作努力产生的。这些来源是地理信息系统社区所熟知的。我们能够仔细比较这些集合,并确定来源的共同组成部分,如学习目标和能力 (表1)。他们的存在在我们的来源允许他们成为合适的锚点的本体工程和促进我们的排名集合之间的亲缘关系进行了合并。最后,进行了手动检查以确保我们的本体是完整且一致的。 此工作流程如图 3 所示。为了系统地组织我们的本体,我们使用了基于 UCGIS GIS&T BoK 的 4 级层次结构树结构。顶级 (根) 级别是当前的十个知识领域: 基础概念,知识经济,计算平台,编程和开发,数据捕获,数据管理,分析和建模,制图和可视化以及领域应用程序。每个知识领域都有一个简短的描述。 第二层是单元,第三层是主题。 我们将学习目标称为第四层,因为学习目标存在于每个主题中,并表明了主题的重点。 有关示例,请参见图 2。
4.3 Relatedness ranking
为了合并这些集合,我们找到了它们相似的实体,并推断出需要在我们的新本体中添加或删除的相关实体。
我们首先定义了简单表示文本(或 SRT)和扩展表示文本(或 ERT)。 SRT 是用于描述本体实体本身的文本。 ERT 是 SRT 的扩展,包含用于添加 SRT 相关实体的图结构信息。
以 UCGIS GIS&T BoK 为例,知识领域的简单表示是它的名称和简短描述。 对于其他级别,识别单元、主题和学习目标的文本是他们的 SRT。ERT 由一组基于 Wordnet (Miller 1998) 的 SRT 的同义词加上相邻级别的 SRT 组成。 对于第四级节点(学习目标),ERT 是从第一级(知识领域)到学习目标的路径中的整个 SRT。一个主题可能包含多个学习目标,因此我们将一个主题的 ERT 定义为其所有学习目标的 SRT。
例如,第三级 SRT 是“模糊聚合运算符”加上同义词‘“fuzzed”, “fuzzy”, “bleary”, “blurred”, “blurry”, “foggy”, “hazy”, “muzzy”, “aggregation”, “accu
mulation”, “assemblage”, “collection”, “collecting”, “assembling”, “aggregation”, “manipula
tor”, “operator”’.
相应的 ERT 将是第二和第四级“规模和分区问题”和“比较和对比布尔和模糊逻辑运算”中的文本; 比较和对比几种模糊聚合的算子,包括相交和并集的算子;举例说明模糊聚合算子的一种用法; 描述如果区域边界模糊而不是清晰,地图叠加分析的方法可能会有所不同; 描述模糊聚合算子。
我们使用 \(h_{s}^{\prime}\) 和 \(h_{e}^{\prime}\) 来表示学习目标(l)的简单表示文本(SRT)和扩展表示文本(ERT)的表示,\(h_{s}^{t}\) 和 \(h_{e}^{t}\) 为 topic(t) 的 SRT 和 ERT, \(h_{s}^{u}\) 为 unit 的 SRT, \(h_{s}^{k}\) 为 知识领域 (k) 的 SRT。 等式 1 和 2 显示了主题 ERT 的计算和学习目标 ERT 的计算。
\[h_{e}^{\prime}=h_{s}^{\prime}+h_{s}^{t}+h_{s}^{u}+h_{s}^{k} \tag{1} \]\[h_{e}^{t}=\sum_{i \in T} h_{s}^{\prime}(i)+h_{s}^{t} \tag{2} \]接下来,从SRT和ERT中提取 Bag-of-words 嵌入。Bag-of-words 嵌入构建了一个 n 维字典(n 是单词的数量),并根据字典中的单词出现来表示文本。词干用于删除单词中的任何屈折词缀(Manning et al. 2008)。例如,“discover”是“discovering”、“discovered”和“discovery”的词干形式。 为了只捕获关键信息,我们对所有文本进行了词干化处理。我们还删除了诸如“a”、“the”和“is”之类的停用词(有关停用词的完整列表,请参见 (Bird et al. 2009))。公式1和2中使用的 Bag-of-words 嵌入h通过公式 3中所示的术语频率-逆文档频率进行归一化:
\[\mathrm{tf}-\mathrm{idf}(\mathrm{t}, \mathrm{d})=\operatorname{tf}(\mathrm{t}, \mathrm{d}) \times \mathrm{idf}(\mathrm{t}) \tag{3} \]其中术语频率 (tf) 是术语 (t) 在给定文档 (d) 中出现的次数。逆文档频率 (idf) 计算为
\[\operatorname{idf}(t)=\log \frac{1+n}{1+\operatorname{df}(t)}+1 \tag{4} \]其中n是SRT的总数,\(\operatorname{df}(i)\) 是包含术语 t 的SRT的数量。
相关性是通过不同主题的Bag-of-words 嵌入ERT \(h_{e}^{t}\) 之间的余弦相似性来衡量的。同样地,学习目标相关性被定义为ERT中不同单词包之间的余弦相似性。假设ERT的bag-of-words嵌入表示是n维向量,则2 ERT之间的余弦相似度定义为:
\[\cos \left(h_{e}(a), h_{e}(b)\right)=\frac{\mathbf{a b}}{\|\mathbf{a}\|\|\mathbf{b}\|}=\frac{\sum_{i=1}^{n} a_{i} b_{i}}{\sqrt{\sum_{i=1}^{n}\left(a_{i}\right)^{2}} \sqrt{\sum_{i=1}^{n}\left(b_{i}\right)^{2}}} \tag{5} \]相关性得分可用于衡量我们的源集合之间的相似性,并可用于向读者推荐相关主题或学习目标。它还显示了这些不同的 GIS 知识集合之间的关系。 在我们检查了所有可能的 ERT 对之后,我们发现一些主题和学习目标表现出低相关性,表明它们是独立的,或者可能是可以添加到本体中的新知识。相关性得分还有助于识别主题何时具有相似性,否则由于它们在层次结构中的各自位置而可能无法观察到的相似性。
毫不奇怪,相关性测量显示,这些现有的 GIS 知识体系和其他集合在很大程度上重叠,但也存在差异。
我们在其他地方发现了 UCGIS GIS&T BoK 2020 年第一季度版本中没有的 45 个主题。
尽管相关性排名会自动识别不同来源之间的重叠并指示独立的组件,但它没有能力生成新的本体并确保添加主题的逻辑一致性,因此 “human-in-the-loop” 在这里是必要的。我们和我们大学的其他GIS专家手动考虑了这些主题中的每个主题,以决定是否应将其及其学习目标添加到本体中。我们遵循包含原则:如果 y 仅出现在 x 出现的文档子集中,则术语 x 包含 y (Nyerges et al. 2014)。将低相关性实体添加到本体的底层,并通过相关性来标识父节点。最后,语义相似性过程帮助我们识别并添加了 12 个主题和 116 个学习目标到派生的本体中。我们合并的层次本体有 10 个知识领域、96 个单元、412 个主题和 1583 个学习目标。
5 Collecting additional GIS knowledge
6 Fusing the GIS knowledge
6.1 Feature selection
6.2 Deep learning-based matching
7 Knowledge retrieval as an application of our GIS-KG
7.1 Analysis procedure
7.2 Evaluation procedures and metrics
7.3 Experiment results
8 Discussion
标签:building,information,scale,GIS,知识,学习,本体,KG,我们 来源: https://www.cnblogs.com/chaoyuan-mao/p/16196022.html