首页 > TAG信息列表 > NER

NER技术总结

NER技术是工业界落地比较多的NLP技术,文本数据的结构化都依赖NER技术,本文总结下常用的NER技术。 一、词典匹配   词典匹配是工业界最常用的NER技术,尤其是垂直领域的NER任务。词典匹配的优点是速度快,可解释性强,且精度高。但是词典无法解决歧义性问题,为了降低词典匹配的歧义性问题,

论文阅读-Distantly Supervised Named Entity Recognition via Confidence-Based Multi-Class Positive and Unl

题目:基于置信度的多类正无标记学习的远程监督命名实体识别 论文地址:https://openreview.net/pdf?id=0gYkM3fk9Bb 源码地址:https://github.com/kangISU/Conf-MPU-DS-NER 摘要:    本文研究了远程监控下的命名实体识别问题。由于外部词典和/或知识库的不完整性,这种远距离注释的训

Raki的读paper小记:Unified Named Entity Recognition as Word-Word Relation Classification

Abstract & Introduction & Related Work 研究任务 NER同一建模模型(flat,nested,discontinuous) 已有方法和相关工作 序列标注基于超图的方法seq2seq方法基于span的方法现有方法focus如何准确识别实体边界 面临挑战 在推理过程中同时存在假结构和结构模糊的问题解码效

Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)

Abstract & Introduction & Related Work 研究任务 无标注数据NER学习已有方法和相关工作 Unsupervised domain adaptationAggregation of annotationsWeak supervision 面临挑战 他们的方法依赖于一个临时的机制,用于生成候选span来进行分类 创新思路 提出一种弱监

Raki的读paper小记:通过教师-学生模型在目标语言上的无标注数据上学习来实现单源/多源跨语言NER任务 from ACL2020

Single-/Multi-Source Cross-Lingual NER via Teacher-Student Learning on Unlabeled Data in Target Language 不要问我为什么改成了中文名,因为标题名字太长了!! Abstract & Introduction & Related Work 研究任务 通过教师-学生模型在目标语言上的无标注数据上学习来实现单

BERT-MRC:统一化MRC框架提升NER任务效果

©原创作者 | 疯狂的Max 01 背景 命名实体识别任务分为嵌套命名实体识别(nested NER)和普通命名实体识别(flat NER),而序列标注模型只能给一个token标注一个标签,因此对于嵌套NER任务,需要使用两个以上的序列标注模型来完成标注任务。 为了解决这一问题大部分人[1][2][3]用pipelined sys

albert+crf中文实体识别

albert-crf 项目地址:https://github.com/jiangnanboy/albert_crf 概述 利用huggingface/transformers中的albert+crf进行中文实体识别 利用albert加载中文预训练模型,后接一个前馈分类网络,最后接一层crf。利用albert预训练模型进行fine-tune。 整个流程是: 数据经albert后获取最后

『NLP学习笔记』BERT命名实体识别(NER)实战

BERT命名实体识别(NER)实战! 文章目录 一. 数据集介绍二. 数据集读取&预处理三. 数据分词tokenizer四. 定义数据读取(继承Dataset)五. 定义模型&优化器&学习率六. 训练测试以及准确率七. 模型预测八. 整个代码八. 参考 BERT技术详细介绍: https://zhangkaifang.blog.csdn

KBQA学习记录-NER训练及验证

目录 1.前提 2.模型训练整体流程 3.模型验证函数 4.打印结果并保存模型 1.前提 我们已经准备好了训练和验证数据,这些数据原来是文本,之后被转为了id,又加了padding,构造成为了特征,又通过类存储起来,实例化之后,通过类.input_ids,类.token_type_ids等方式,被调用,并存在了列表中,转为了t

预训练模型:一种低资源实体NER标注的方法

前言 今天介绍一篇最新的NER预训练模型paper~ 有关于在预训练模型上面训练命名实体识别(NER)有关的任务,这方面的研究还不多,注意不是NER fintune,是NER pretrain,主要的原因就是这面的数据集很少,即使有一个的数据集,但是其标注的质量也不高,为此本文主要贡献就是制作了一个比较大的且

TENER: Adapting Transformer Encoder for Named Entity Recognition

论文地址:​​​​​​https://arxiv.org/pdf/1911.04474.pdf         代码地址:GitHub - fastnlp/TENER: Codes for "TENER: Adapting Transformer Encoder for Named Entity Recognition"         Transformer编码器用于命名实体识别。来自复旦大学邱锡鹏团队。  

HanLP中文分词、人名识别、地名识别

HanLP中文分词、人名识别、地名识别 实验目的 从网上下载和安装HanLP自然语言处理包;熟悉HanLP自然语言处理包的基本功能;利用网络爬虫获取的信息,调用HanLP的API,进行中文分词、人名识别、地名识别. 研究背景 随着互联网和信息技术的快速发展,网络中产生了海量的文本信息,但是这

NER中的一些编码器与解码器

文章目录 参考编码LR-CNNFLAT 解码GlobalPointer 本篇文章是命名实体识别(NER)算法的进一步介绍,主要内容是介绍一些编码器与解码器,作为上一篇内容的补充。 参考 中文NER的正确打开方式: 词汇增强方法总结 (从Lattice LSTM到FLAT) GlobalPointer:用统一的方式处理嵌套和非嵌

【小白学】看懂文章后,该如何做到较完美的论文汇报?

【小白学】看懂文章后,该如何做到较完美的论文汇报? 依次按照以下几点(问题引入、模型概述、细节阐述、总体回顾、结果验证、展望未来)汇报文献内容 1)   问题引入:首先从问题背景(研究背景)出发,(以NER为例)可以先介绍什么是命名实体识别和与其相关的一些基础知识(结合一些直观的例子)。然

中文NER的那些事儿5. Transformer相对位置编码&TENER代码实现

这一章我们主要关注transformer在序列标注任务上的应用,作为2017年后最热的模型结构之一,在序列标注任务上原生transformer的表现并不尽如人意,效果比bilstm还要差不少,这背后有哪些原因? 解决这些问题后在NER任务上transformer的效果如何?完整代码详见ChineseNER Transformer水土不服

【论文阅读】Joint_Self-Attention_and_Multi-Embeddings_for_Chinese_Named_Entity_Recognition[BigCom2020]

论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9160451 代码地址: Abstract 命名实体识别(NER)是自然语言处理(NLP)中的一项基本任务,但由于汉语的特殊性和复杂性,在汉语中的命名实体识别仍具有较大的挑战性。传统的中文命名实体识别(Chinese NER)方法需要繁琐的特征

【论文阅读】Exploiting Multiple Embeddings for Chinese Named Entity Recognition[ACM2019]

论文地址:https://arxiv.org/pdf/1908.10657.pdf 代码地址(Keras):https://github.com/WHUIR/ME-CNER ABSTRACT 识别文本中提到的命名实体将丰富下游级别的许多语义应用程序。然而,由于微博中主要使用口语,与正式中文语料库中的命名实体识别相比,中文微博中的命名实体识别(NER)的性能显著

ElasticSearch修改多层结构中的数据附java代码

需求:         多层级关系,需要修改es_KIE下medical_ner,case_info中字段的值 参考网上帖子修改的写法: request.index(esInfo.getIndex()) //索引名 .id(timelineSearch.getId())//id .doc( XContentFactory.jsonBuilder()         

【论文阅读】MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

论文地址:https://aclanthology.org/2021.acl-long.121.pdf 代码地址:https://github.com/CoderMusou/MECT4CNER Abstract 近年来,在中文命名实体识别(NER)中,词语增强已成为一种非常流行的方法,它可以减少切分错误,增加中文词语的语义和边界信息。然而,这些方法在整合了词汇信息之后,往往忽

NER(HMM实现)

1.数据 数据部分需要两个文件,一个是字符转化成索引的字典char2id.json,一个是用来训练的语料data.json。 char2id.json字典格式如下 {"UNK": 0, "淖": 20, "箩": 21, "雨": 22, "漳": 23,...} data.json语料格式如下 [{"text": ["迈", "向", &

论文解读:ACL2021 NER | 基于模板的BART命名实体识别

摘要:本文是对ACL2021 NER 基于模板的BART命名实体识别这一论文工作进行初步解读。 本文分享自华为云社区《ACL2021 NER | 基于模板的BART命名实体识别》,作者: JuTzungKuei 。 论文:Cui Leyang, Wu Yu, Liu Jian, Yang Sen, Zhang Yue. TemplateBased Named Entity Recognition Using

NER为什么那么难

命名实体识别(Name Entity Recognition) 是自然语言处理中一个比较基础的问题。要解决的问题是,从unstructure的文本当中找到实体并归类。当然我这么定义已经有了一定的bias,认为是先找实体在归类,但实现过程则并不一定如此。   定义一般来说都比较抽象,我们举一些例子来理解一下NER

NLP 中的通用数据增强方法及针对 NER 的变种

本文结合 A Visual Survey of Data Augmentation in NLP 和最新的综述论文 A Survey of Data Augmentation Approaches for NLP,大致总结了目前 NLP 领域的通用数据增强方法和几种针对如 NER 的序列标注模型进行适配的变种方法,关于后者,重点介绍了基于 mixup 改进的 SeqMix 方

【论文阅读】Infomation Extraction from English & Japanese Resume with Neural Sequence Labelling Methods[AN

论文地址:https://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P10-5.pdf 代码地址: Abstract We prepare our own annotated resume datasets for both English and Japanese. There are token/phrase level labels and sentence/paragraph level labels.初步实验表明,有必要

未标注目标语料是否均适合用于跨语言学习?『基于对抗判别器高效利用未标注语料的跨语言NER算法AdvPicker』

本文公式较多,建议转至博客阅读 (再过几个小时今年的 ACL 就要来了,赶在 ddl 之前, 简单介绍一下韦乐,我,千惠,Börje,Yi Guan 等人在 ACL21 上的这篇工作。 AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial Discriminator for Cross-Lingual NER (ACL-IJCNLP 20