[论文阅读笔记42]BioSyn
作者:互联网
题目
Biomedical Entity Representations with Synonym Marginalization
具有同义词边缘化的生物医学实体表示
Korea University (韩国)高丽大学
代码:https://github.com/dmis-lab/BioSyn
Sung M , Jeon H , Lee J , et al. Biomedical Entity Representations with Synonym Marginalization[J]. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.
摘要
专注于学习仅基于实体的同义词的生物医学实体的表示。
提出BIOSYN.
背景
不同字符有相同的含义,相同的含义有不同的表面字符;
一般的解决方法是采用二元分类来处理,如果相同就是正样本,否则为负样本。
论文提出:BIOSYN – 使用同义词边缘化技术,它最大限度地将top候选对象中所有同义词表示的概率最大化。
采用稀疏与稠密的方法分别去捕捉“morphological”与“semantic”的信息;
方法
贡献:提出BIOSYN模型,它是基于同义词边缘化的思想;
以前的工作都是pair-wise训练模型的,且明确要求负样本对的;负样本的方法,负样本的采样对结果的影响是十分大的。本论文的工作是基于边缘化正样本的方法。
基于检索的思想去研究相关 – maximum inner product search (MIPS) 【计算最大内积搜索】
-
问题定义
对于输入的m, CUI(·)返回同义词n的CUI,其中θ 为模型参数。N是所有同义词休,n为其中的元素。
-
模型
Mention与Dictionary采用同等的Encoder来编码,它们是共享的,接着就是内积;
在训练阶段迭代更新top候选与基于表达计算marginal同义词概率;
在预测阶段,使用MIPS来计算最相近的同义词;
稀疏实体表示
e_s_m,e_s_n分别表示输入与同义词的tf-idf稀疏表示,稀疏相似定义为:
f(·,·)表示相似函数,通过两向量的内积来计算。
密集实体表示
稀疏表示实现了形态学的编码表示,密集表示则是是语义信息编码表示;
学习有效的密集表示是实体标准化的一个关键挑战;
这里使用BioBERT来编码。【Biobert: a pre-trained biomedical language representation model for biomedical text mining – 2019】
预训练BioBERT,fifine-tune是使用 synonym marginalization algorithm;
m = {**m1*, …, ml}*,是subword序列,由Word-Piece tokenizer分隔开的子词集合;[CLS] 表示输入的输出向量,即是表示这个m的向量。
这个f也是内积的相似函数。
Similarity Function(相似函数)
其中,λ是sparse分类,它是可训练标量权重。
-
训练
基于模型侯选检索与最大化同义词正向边缘概率的方法。在这个框架中,使用实体编码器来迭代地更新顶级候选者。
Iterative Candidate Retrieval
这步就像是召回。从大量的候选集中选择小部分来训练。
k: 表示对于训练集检索出来top候选的总数;
a: 表示来自dense候选的比率。(0 ≤ α ≤ 1)
[ak]个S_dense候选, k - [ak]个S_sparse候选.
Synonym Marginalization
分母是前k个候选之和。
对于m的同义正向边缘概率定义为:
EQUAL(m, n)为1时, CUI(m)等价于CUI(n).
损失函数
M表示mentions的总数;
-
预测
预测时只是计算S(m, n) 就可以了,然后选择最近似的一个就OK了。
实验
预处理:大小写,标点符号,拼写错误,缩写(Ab3P),组合概念词(启发式规则);
https://github.com/ncbi-nlp/Ab3P
对于稀疏: tf-idf方法,使用uni-, bi-grams.
k = 20 – 候选数
a = 0.5 – dense的占比
学习率 = 1e-5
weight decay = 1e-2
mini-batch size = 16
λ = 2~4
数据集
NCBI Disease Corpus:https://www.ncbi.nlm.nih.gov/CBBresearch/Dogan/DISEASE
Biocreative V CDR:https://biocreative.bioinformatics.udel.edu/tasks/biocreative-v/track-3-cdr/
TAC2017ADR:https://bionlp.nlm.nih.gov/tac2017adversereactions
结果
BIOSYN(S-SCORE): 只使用sparse scores来推理预测;
BIOSYN(D-SCORE): 只使用dense scores来推理预测;
BIOSYN (α = 0*.*0): 只使用sparse candidates来训练;
BIOSYN (α = 1*.*0): 只使用dense candidates来训练;
迭代候选检索过程
候选集数量效果进行研究
更高的候选数不会提高更高的准确率
同义词边缘化研究
marginal maximum likelihood (MML)与其它损失函数对比:hard EM, standard pair-wise;
Memory augmented policy optimization for program synthesis and semantic parsing – 2018
Dnorm: disease name normalization with pairwise learning to rank – 2013
分析
Iterative Candidate Samples
Error Analysis
略
相关工作
- 生物医学实体表达依赖于生物医学词表达:
Word2vec:
Distributed representations of words and phrases and their compositionality – 2013
Distributional semantics resources for biomedical text processing – 2013, PubMed语料
生物医版的word2Vec广泛应用于其它任务上,标准化任务也不例外:《Medical entity linking using triplet network》 - 2019
BioBERT
Biobert: a pre-trained biomedical language representation model for biomedical text mining – 2019 – 基于bert模型使用生物语料进行训练的模型
- 任务问题陈述
对生物医学实体表示质量评价通常是通过生物医学实体标准化任务来验证;
目标:将生物医学文本Mention映射到字典中相关的CUI(概念唯一ID);
任务相关:entity linking,entity grounding;
挑战:生物医学领域有大量的同义词;
相关论文:
Dnorm: disease name normaliza tion with pairwise learning to rank – 2013
Robust representation learning of biomedical names – 2019
Sieve-based entity linking for the biomedical domain – 2015
Taggerone: joint named entity recognition and normalization with semi-markov models – 2016
-
传统的标准化方法 – 基于手工规则进行
DNorm, CNN-based ranking method,NSEEN(与论文相似),BNE(与论文相似)
Nseen: Neural semantic embedding for entity normalization – 2019
Robust representation learning of biomedical names – 2019 – BNE
使用LSTM模型将字典中提到的概念名称映射到潜在空间,并使用负采样技术改进了嵌入。
总结
不知道这个方法用到中文标准化会怎么样?
参考
代码:https://github.com/dmis-lab/BioSyn
论文:https://arxiv.org/abs/2005.00239
标签:候选,同义词,42,笔记,biomedical,https,生物医学,BioSyn,BIOSYN 来源: https://blog.csdn.net/ld326/article/details/118069141