首页 > TAG信息列表 > 语料
Bert不完全手册8. 预训练不要停!Continue Pretraining
paper: Don't stop Pretraining: Adapt Language Models to Domains and Tasks GitHub: https://github.com/allenai/dont-stop-pretraining 论文针对预训练语料和领域分布,以及任务分布之间的差异,提出了DAPT领域适应预训练(domain-adaptive pretraining)和TAPT任务适应预训练(taskNLP数据集共享、LDC语料
包括ACE2005、TACRED、WSJ0、Ontonotes5.0、NYT(New York Times)、Gigaword、Conll2003、CTB9.0、TDT5、HKUST、TIMIT、TAC KBP等LDC语料。 如有需要可加V:13072932758. ACE2005 TACRED ontonotes-release-5.0 New York Times WSJ0(LDC93S6A)知识增广的预训练语言模型K-BERT:将知识图谱作为训练语料
©原创作者 | 杨健 论文标题: K-BERT: Enabling Language Representation with Knowledge Graph 收录会议: AAAI 论文链接: https://ojs.aaai.org/index.php/AAAI/article/view/5681 项目地址: https://github.com/autoliuweijie/K-BERT 01 背景论述 笔者在前面的论文解读中提到过ERN智能语音之远场关键词识别实践(一)
Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/course/detail/35475 语音识别主要分两大类:大词汇量连续语音识别技术(Large Vocabulary Continuous Speech Recognition,LVCSR)和关键词识别(keyword S论文--大规模情感词典的构建及其在情感分类中的应用
论文主要基于海量的微博数据,使用简单的文本统计算法,构建了一个十万词语的大规模情感词典。(论文地址:http://jcip.cipsc.org.cn/CN/abstract/abstract2374.shtml#) 情感词典的构建流程如下: 表情符种子获取,利用提前构建好的情感词语种子,在一个较小规模的微博语料上,为所有的表情符进行NLP - Gensim
文章目录 关于 Gensim安装 基本概念使用 步骤1、训练语料的预处理2、主题向量的变换3、文档相似度的计算 补充TF-IDFLDA文档主题生成模型 参考资料 转载自:https://www.jianshu.com/p/9ac0075cc4c0 关于 Gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结ChatterBot+第三方中文语料库实现在线聊天机器人
设计并实现一个在线聊天机器人案例 1、ChatterBot ChatterBot是Python自带的基于机器学习的语音对话引擎,可以基于已知的对话库来产生回应。ChatterBot独特的语言设计可以使它可以通过训练来用任何一种语言进行对话。该项目的开源代码链接:https://github.com/gunthercox/Chatt【NLP】文本特征处理&文本数据增强
文本特征处理&数据增强 1. 文本特征处理1.1 什么是n-gram特征1.2 文本长度规范及其作用 2. 文本数据增强2.1 什么是回译数据增强法2.2 回译数据增强实现 总结 1. 文本特征处理 了解文本特征处理的作用.掌握实现常见的文本特征处理的具体方法. 文本特征处理的作用: 文本特工作5年后我才发现:90%的技术问题,可以解决
01.前言 现在市面上的智能电子产品千千万,为了达到人们使用更加方便的目的,很多智能产品都开发了语音识别功能,用来语音唤醒进行交互;另外,各大公司也开发出来了各种智能语音机器人,比如小米公司的“小爱”,百度公司的“小度”,三星公司的“bixby”,苹果的“siri”等等。这些语音识别未标注目标语料是否均适合用于跨语言学习?『基于对抗判别器高效利用未标注语料的跨语言NER算法AdvPicker』
本文公式较多,建议转至博客阅读 (再过几个小时今年的 ACL 就要来了,赶在 ddl 之前, 简单介绍一下韦乐,我,千惠,Börje,Yi Guan 等人在 ACL21 上的这篇工作。 AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial Discriminator for Cross-Lingual NER (ACL-IJCNLP 20事件抽取综述
事件抽取综述 1 基本概念1.1 事件1.2 事件抽取 2 国内外研究现状3 语料库3.1 ACE事件语料库3.2 MUC语料库3.3 TDT语料库3.4 KBP语料库3.5 ECB语料库3.6 CEC语料库 4 典型方法4.1 限定域事件抽取4.1.1 基于模式匹配的方法4.1.2 基于机器学习的方法 4.2 开放域事件抽取4.2.1【ACL 2021】《 RADDLE:An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Sys
【ACL 2021】《 RADDLE:An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Systems》实验分析 英文标题:RADDLE:An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Systems 中文翻译:健壮的任务型的对话系统的评估对比学习还能这样用:字节推出真正的多到多翻译模型mRASP2
AI科技评论报道 作者 | 潘小小 编辑 | 陈大鑫 大家都知道目前研究界主流的多语言翻译模型主要在英语相关的语对上进行训练。这样的系统通常在英语相关的语向(有监督语向)上表现不错,而在非英语方向(零资源方向)的翻译效果不佳。 针对这个问题,字节跳动的研究者们近期提出了mRASP分类任务中样本不均衡解决方案
基于SimBERT生成相似文本和检索相似文本的能力,我们会在文本分类任务中通过SimBERT来获取更多的伪标签语料。通过SimBERT根据现有的标注语料来生成相似文本,或者构建搜索库从搜索库中检索相似文本可以获取很多语义相关性较好的伪标签语料数据。这在实际的业务中也证明了可以有效提升AI机器人:与智能机器人进行实时智能交互,想问什么就问什么
AI机器人:与智能机器人进行实时智能交互,想问什么就问什么 目录 界面设计 更多好玩设计 视频播放地址:设计GUI界面实现与机器人智能对话 界面设计 1、思路:训练语料,设计语料,结合人工智能算法 2、测试提问的问题: 你叫什么名字?现在天气怎么样?你讲一个笑话吧!你喜欢我嘛? 3文本情绪分析学习篇(四)
文本情绪分析学习篇(四) 最近没有怎么看论文,看完了一个文档Chinese nlp,在GitHub上下载的。文档内容写得很清楚。 文档下载:link 下文的图片来源文档截图。 一、自然语言处理 1、分析对象和内容 词汇:中文分词、词性标注、命名实体识别(人名地名识别)、新词发现语义表示、语义关系【笔记】使用Gensim模块训练词向量
【笔记】使用Gensim模块训练词向量 文章目录 【笔记】使用Gensim模块训练词向量 1. 语料获取 2. 训练word2vec 1. 语料获取 参考 下载维基百科中文语料作为预训练数据集; 下载地址: zhWiki [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 选择CRF/CRF++工具简单使用案例——分词篇
CRF/CRF++工具简单使用案例——分词篇 一、语料准备二、语料处理三、使用CRF++工具1. 打开命令行窗口2. 训练3. 测试4. 评估 四、结语 一、语料准备 从网上下载一份人民日报语料(data.txt),并采用分词工具对其进行分词处理,。效果如下:(每一句话为一行) 北京/金融街/是/首机器翻译中的强化学习:优点、缺点以及不足
本文译自 RL in NMT: The Good, the Bad and the Ugly,作者是海德堡大学的 PhD Julia Kreutzer,翻译已获得作者授权,并且她欢迎大家对文章提出反馈,可以邮件和她交流(PS:作者非常 nice)。在这篇文章中,我会向大家介绍在神经机器翻译(NMT)中使用强化学习(RL)的三个方面:优点:能够和传统的极大似然开放域对话系统:现状和未来
分享嘉宾:王凡 百度 主任架构师编辑整理:许宴铭出品平台:DataFunTalk导读:本次分享的主题为开放域对话系统:现状和未来。将系统地介绍开放域对话系统最前沿的技术,包括知识对话生成、基于强化学习的可控对话、大规模预训练对话模型等等,以及展开对开放域对话系统未来发展的讨论。01对话系NLP自然语言处理系列- week7- 检索模型(精排)(8)
NLP自然语言处理系列- week7- 检索模型(精排)(8) 检索模型(精排)排序模块步骤: 处理数据 ⼈⼯特征 深度匹配 排序 整合 目录 数据预处理 ⼈⼯特征 数据预处理 微众银行提供了微众银行智能客服问句匹配的语料支持,针对中文的客服语料,进行问句意图匹配,给定两个语句,要求判定两文本分类只需标签名称,不需要任何标注数据!
当前的文本分类任务需要利用众多标注数据,标注成本是昂贵的。而半监督文本分类虽然减少了对标注数据的依赖,但还是需要领域专家手动进行标注,特别是在类别数目很大的情况下。 试想一下,我们人类是如何对新闻文本进行分类的?其实,我们不要任何标注样本,只需要利用和分类类别相关的少数词获得文本语料和词汇资源
获取文本语料库 古腾堡语料库 方法一(麻烦) >>> import nltk >>> nltk.corpus.gutenberg.fileids() ['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryanGensim
目录关于 Gensim安装基本概念使用 步骤1、训练语料的预处理2、主题向量的变换3、文档相似度的计算补充TF-IDFLDA文档主题生成模型参考资料 转载自:https://www.jianshu.com/p/9ac0075cc4c0 关于 Gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督NLP 实战
目录怎么训练一个语言模型句法分析机器翻译文本分类问题的思路模型类型其他任务 怎么训练一个语言模型 1、 语料获取及预处理 billion words:https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark 下载其 training-monolingual 语料 并使用 get_data 脚