NER

首页 > TAG信息列表 > NER

NER技术总结

NER技术是工业界落地比较多的NLP技术，文本数据的结构化都依赖NER技术，本文总结下常用的NER技术。一、词典匹配　　词典匹配是工业界最常用的NER技术，尤其是垂直领域的NER任务。词典匹配的优点是速度快，可解释性强，且精度高。但是词典无法解决歧义性问题，为了降低词典匹配的歧义性问题，

论文阅读-Distantly Supervised Named Entity Recognition via Confidence-Based Multi-Class Positive and Unl

题目：基于置信度的多类正无标记学习的远程监督命名实体识别论文地址：https://openreview.net/pdf?id=0gYkM3fk9Bb 源码地址：https://github.com/kangISU/Conf-MPU-DS-NER 摘要：　　本文研究了远程监控下的命名实体识别问题。由于外部词典和/或知识库的不完整性，这种远距离注释的训

Raki的读paper小记：Unified Named Entity Recognition as Word-Word Relation Classification

Abstract & Introduction & Related Work 研究任务 NER同一建模模型（flat，nested，discontinuous）已有方法和相关工作序列标注基于超图的方法seq2seq方法基于span的方法现有方法focus如何准确识别实体边界面临挑战在推理过程中同时存在假结构和结构模糊的问题解码效

Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）

Abstract & Introduction & Related Work 研究任务无标注数据NER学习已有方法和相关工作 Unsupervised domain adaptationAggregation of annotationsWeak supervision 面临挑战他们的方法依赖于一个临时的机制，用于生成候选span来进行分类创新思路提出一种弱监

Raki的读paper小记：通过教师-学生模型在目标语言上的无标注数据上学习来实现单源/多源跨语言NER任务 from ACL2020

Single-/Multi-Source Cross-Lingual NER via Teacher-Student Learning on Unlabeled Data in Target Language 不要问我为什么改成了中文名，因为标题名字太长了！！ Abstract & Introduction & Related Work 研究任务通过教师-学生模型在目标语言上的无标注数据上学习来实现单

BERT-MRC：统一化MRC框架提升NER任务效果

©原创作者 | 疯狂的Max 01 背景命名实体识别任务分为嵌套命名实体识别（nested NER）和普通命名实体识别（flat NER），而序列标注模型只能给一个token标注一个标签，因此对于嵌套NER任务，需要使用两个以上的序列标注模型来完成标注任务。为了解决这一问题大部分人[1][2][3]用pipelined sys

albert+crf中文实体识别

albert-crf 项目地址：https://github.com/jiangnanboy/albert_crf 概述利用huggingface/transformers中的albert+crf进行中文实体识别利用albert加载中文预训练模型，后接一个前馈分类网络，最后接一层crf。利用albert预训练模型进行fine-tune。整个流程是：数据经albert后获取最后

『NLP学习笔记』BERT命名实体识别(NER)实战

BERT命名实体识别(NER)实战！文章目录一. 数据集介绍二. 数据集读取&预处理三. 数据分词tokenizer四. 定义数据读取(继承Dataset)五. 定义模型&优化器&学习率六. 训练测试以及准确率七. 模型预测八. 整个代码八. 参考 BERT技术详细介绍： https://zhangkaifang.blog.csdn

KBQA学习记录-NER训练及验证

目录 1.前提 2.模型训练整体流程 3.模型验证函数 4.打印结果并保存模型 1.前提我们已经准备好了训练和验证数据，这些数据原来是文本，之后被转为了id，又加了padding，构造成为了特征，又通过类存储起来，实例化之后，通过类.input_ids，类.token_type_ids等方式，被调用，并存在了列表中，转为了t

预训练模型：一种低资源实体NER标注的方法

TENER: Adapting Transformer Encoder for Named Entity Recognition

论文地址：https://arxiv.org/pdf/1911.04474.pdf 代码地址：GitHub - fastnlp/TENER: Codes for "TENER: Adapting Transformer Encoder for Named Entity Recognition" Transformer编码器用于命名实体识别。来自复旦大学邱锡鹏团队。

HanLP中文分词、人名识别、地名识别

HanLP中文分词、人名识别、地名识别实验目的从网上下载和安装HanLP自然语言处理包;熟悉HanLP自然语言处理包的基本功能;利用网络爬虫获取的信息，调用HanLP的API，进行中文分词、人名识别、地名识别. 研究背景随着互联网和信息技术的快速发展，网络中产生了海量的文本信息，但是这

NER中的一些编码器与解码器

文章目录参考编码LR-CNNFLAT 解码GlobalPointer 本篇文章是命名实体识别（NER）算法的进一步介绍，主要内容是介绍一些编码器与解码器，作为上一篇内容的补充。参考中文NER的正确打开方式: 词汇增强方法总结 (从Lattice LSTM到FLAT) GlobalPointer：用统一的方式处理嵌套和非嵌

【小白学】看懂文章后，该如何做到较完美的论文汇报？

【小白学】看懂文章后，该如何做到较完美的论文汇报？依次按照以下几点（问题引入、模型概述、细节阐述、总体回顾、结果验证、展望未来）汇报文献内容 1) 问题引入：首先从问题背景（研究背景）出发，（以NER为例）可以先介绍什么是命名实体识别和与其相关的一些基础知识（结合一些直观的例子）。然

中文NER的那些事儿5. Transformer相对位置编码&TENER代码实现

这一章我们主要关注transformer在序列标注任务上的应用，作为2017年后最热的模型结构之一，在序列标注任务上原生transformer的表现并不尽如人意，效果比bilstm还要差不少，这背后有哪些原因? 解决这些问题后在NER任务上transformer的效果如何？完整代码详见ChineseNER Transformer水土不服

【论文阅读】Joint_Self-Attention_and_Multi-Embeddings_for_Chinese_Named_Entity_Recognition[BigCom2020]

论文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9160451 代码地址： Abstract 命名实体识别（NER）是自然语言处理（NLP）中的一项基本任务，但由于汉语的特殊性和复杂性，在汉语中的命名实体识别仍具有较大的挑战性。传统的中文命名实体识别（Chinese NER）方法需要繁琐的特征

【论文阅读】Exploiting Multiple Embeddings for Chinese Named Entity Recognition[ACM2019]

论文地址：https://arxiv.org/pdf/1908.10657.pdf 代码地址(Keras)：https://github.com/WHUIR/ME-CNER ABSTRACT 识别文本中提到的命名实体将丰富下游级别的许多语义应用程序。然而，由于微博中主要使用口语，与正式中文语料库中的命名实体识别相比，中文微博中的命名实体识别（NER）的性能显著

ElasticSearch修改多层结构中的数据附java代码

需求：多层级关系，需要修改es_KIE下medical_ner,case_info中字段的值参考网上帖子修改的写法： request.index(esInfo.getIndex()) //索引名 .id(timelineSearch.getId())//id .doc( XContentFactory.jsonBuilder()

【论文阅读】MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

论文地址：https://aclanthology.org/2021.acl-long.121.pdf 代码地址：https://github.com/CoderMusou/MECT4CNER Abstract 近年来，在中文命名实体识别（NER）中，词语增强已成为一种非常流行的方法，它可以减少切分错误，增加中文词语的语义和边界信息。然而，这些方法在整合了词汇信息之后，往往忽

NER(HMM实现)

1.数据数据部分需要两个文件，一个是字符转化成索引的字典char2id.json，一个是用来训练的语料data.json。 char2id.json字典格式如下 {"UNK": 0, "淖": 20, "箩": 21, "雨": 22, "漳": 23,...} data.json语料格式如下 [{"text": ["迈", "向", &

论文解读：ACL2021 NER | 基于模板的BART命名实体识别

摘要：本文是对ACL2021 NER 基于模板的BART命名实体识别这一论文工作进行初步解读。本文分享自华为云社区《ACL2021 NER | 基于模板的BART命名实体识别》，作者： JuTzungKuei 。论文：Cui Leyang, Wu Yu, Liu Jian, Yang Sen, Zhang Yue. TemplateBased Named Entity Recognition Using

NER为什么那么难

命名实体识别(Name Entity Recognition) 是自然语言处理中一个比较基础的问题。要解决的问题是，从unstructure的文本当中找到实体并归类。当然我这么定义已经有了一定的bias，认为是先找实体在归类，但实现过程则并不一定如此。定义一般来说都比较抽象，我们举一些例子来理解一下NER

NLP 中的通用数据增强方法及针对 NER 的变种

本文结合 A Visual Survey of Data Augmentation in NLP 和最新的综述论文 A Survey of Data Augmentation Approaches for NLP，大致总结了目前 NLP 领域的通用数据增强方法和几种针对如 NER 的序列标注模型进行适配的变种方法，关于后者，重点介绍了基于 mixup 改进的 SeqMix 方

【论文阅读】Infomation Extraction from English & Japanese Resume with Neural Sequence Labelling Methods[AN

论文地址：https://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P10-5.pdf 代码地址： Abstract We prepare our own annotated resume datasets for both English and Japanese. There are token/phrase level labels and sentence/paragraph level labels.初步实验表明，有必要

未标注目标语料是否均适合用于跨语言学习?『基于对抗判别器高效利用未标注语料的跨语言NER算法AdvPicker』

本文公式较多，建议转至博客阅读 (再过几个小时今年的 ACL 就要来了，赶在 ddl 之前，简单介绍一下韦乐，我，千惠，Börje，Yi Guan 等人在 ACL21 上的这篇工作。 AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial Discriminator for Cross-Lingual NER (ACL-IJCNLP 20