首页 > 其他分享> > [论文阅读笔记42]BioSyn

[论文阅读笔记42]BioSyn

2021-06-20 14:04:33 作者：互联网

题目

Biomedical Entity Representations with Synonym Marginalization

具有同义词边缘化的生物医学实体表示

Korea University （韩国）高丽大学

代码：https://github.com/dmis-lab/BioSyn

Sung M , Jeon H , Lee J , et al. Biomedical Entity Representations with Synonym Marginalization[J]. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.

摘要

专注于学习仅基于实体的同义词的生物医学实体的表示。
提出BIOSYN.

背景

不同字符有相同的含义，相同的含义有不同的表面字符；
一般的解决方法是采用二元分类来处理，如果相同就是正样本，否则为负样本。

论文提出：BIOSYN – 使用同义词边缘化技术，它最大限度地将top候选对象中所有同义词表示的概率最大化。

采用稀疏与稠密的方法分别去捕捉“morphological”与“semantic”的信息；

方法

贡献：提出BIOSYN模型，它是基于同义词边缘化的思想；

以前的工作都是pair-wise训练模型的，且明确要求负样本对的；负样本的方法，负样本的采样对结果的影响是十分大的。本论文的工作是基于边缘化正样本的方法。

基于检索的思想去研究相关 – maximum inner product search (MIPS) 【计算最大内积搜索】

问题定义

对于输入的m, CUI(·)返回同义词n的CUI，其中θ 为模型参数。N是所有同义词休，n为其中的元素。
模型

Mention与Dictionary采用同等的Encoder来编码，它们是共享的，接着就是内积；

在训练阶段迭代更新top候选与基于表达计算marginal同义词概率；

在预测阶段，使用MIPS来计算最相近的同义词；

稀疏实体表示

e_s_m，e_s_n分别表示输入与同义词的tf-idf稀疏表示，稀疏相似定义为：

f(·，·)表示相似函数，通过两向量的内积来计算。

密集实体表示

稀疏表示实现了形态学的编码表示，密集表示则是是语义信息编码表示；

学习有效的密集表示是实体标准化的一个关键挑战；

这里使用BioBERT来编码。【Biobert: a pre-trained biomedical language representation model for biomedical text mining – 2019】

预训练BioBERT，fifine-tune是使用 synonym marginalization algorithm；

m = {**m1*, …, ml}*，是subword序列，由Word-Piece tokenizer分隔开的子词集合；[CLS] 表示输入的输出向量，即是表示这个m的向量。

这个f也是内积的相似函数。

Similarity Function（相似函数）

其中，λ是sparse分类，它是可训练标量权重。

训练

基于模型侯选检索与最大化同义词正向边缘概率的方法。在这个框架中，使用实体编码器来迭代地更新顶级候选者。

Iterative Candidate Retrieval

这步就像是召回。从大量的候选集中选择小部分来训练。

k: 表示对于训练集检索出来top候选的总数；

a: 表示来自dense候选的比率。(0 ≤ α ≤ 1)

[ak]个S_dense候选, k - [ak]个S_sparse候选.

Synonym Marginalization

分母是前k个候选之和。

对于m的同义正向边缘概率定义为：

EQUAL(m, n)为1时， CUI(m)等价于CUI(n).

损失函数

M表示mentions的总数；
预测

预测时只是计算S(m, n) 就可以了，然后选择最近似的一个就OK了。