首页 > TAG信息列表 > 语料库

论文单词2

certain components  某些组件 while : 同时---连词  corpus:语料库  fine-tune on : 在什么数据集上微调   scalability:可扩展性  inductive bias:归纳偏置  small-resolution 小分辨率  Typically:通常 downstream :下游 Lastly:最后  inversely proportional:成反比 Overall:

(转载)文本挖掘的分词原理

目录前言1. 分词的基本原理 前言 在做文本挖掘的时候,首先要做的预处理就是分词。 英文单词天然有空格隔开容易按照空格分词,但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。 而中文由于没有空格,分词就是一个需要专门去解决的问题了。 无

机器学习——TF-IDF

TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出

Commonsense Causal Reasoning between Short Texts

Commonsense Causal Reasoning between Short Texts Abstract 1 Introduction 为了进一步说明常识性因果推理问题,我们提出了一个来自COPA(Choice of Plausible Alternatives)评估(Roemmele, Bejan, and Gordon 2011)的问题,COPA由1000个需要常识性因果推理才能正确回答的多项选择题

文本图Tranformer在文本分类中的应用

©原创作者 | 苏菲 论文来源: https://aclanthology.org/2020.emnlp-main.668/ 论文题目: Text Graph Transformer for Document Classification (文本图Tranformer在文本分类中的应用) 论文作者: Haopeng Zhang Jiawei Zhang 01 引言 文本分类是自然语言处理中的基本任务之一,而图

Chapter 2.2 高频词和关键词提取(二)续

知识点2.2.5 基于sklearn的TF-IDF关键词提取 基于sklearn的TF-IDF关键词提取的特点: 能够使用jieba库分词能够使用自定义词典(新词、停用词)适用于多文本关键词提取(而非单文本)能够根据导入的语料库计算TF-IDF值(需训练模型)计算结果不便阅读(以矩阵呈现而非列表) scikit-learn官方网

《Neural Architectures for Nested NER through Linearization》

论文链接:Neural Architectures for Nested NER through Linearization 模型代码:Github Abstract   我们提出了两种用于嵌套命名实体识别(NER)的神经网络架构,在该架构的设置中命名实体可以重叠,也可以被多个标签标记。我们使用线性化方案编码嵌套的标签。在我们提出的第一种

ChatterBot+第三方中文语料库实现在线聊天机器人

设计并实现一个在线聊天机器人案例 1、ChatterBot ChatterBot是Python自带的基于机器学习的语音对话引擎,可以基于已知的对话库来产生回应。ChatterBot独特的语言设计可以使它可以通过训练来用任何一种语言进行对话。该项目的开源代码链接:https://github.com/gunthercox/Chatt

自然语言处理入门(何晗):第一章

第一章 新手上路 **自然语言处理(NLP)**是一门融合了计算机科学、人工智能以 及语言学的交叉学科, 这门学科研究的是如何通过机器学习等技术, 让计算机学会处理人类语言,乃至实现终极目标——理解人类语言或人工智能 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直

智能问答机器人综述

  问答机器人引擎一般分为以下几种 1、FAQ:最传统的一问一答引擎,是所有市场上问答机器人都必备的功能。通常以{1条标准问 +1 条标准答案 + n条相似问}的结构将语料存储在FAQ语料库中(如mysql、ElaticSearch)。流程分为三步,第一步,用户提问时,从所有标准问和相似问中混合召回出top N

针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(一) —— 基于TF-IDF的特征提取

       在对一段文本进行分词之后,有的词出现的次数会比较多,因此往往对其出现的频次进行统计,作为该词重要程度的度量。基于这个思想,词频(Term Frequency,TF)被广泛应用于基本的文本数据挖掘。在实际应用中,分词过后经常出现的词包含一些常用而又不带有信息量的词,例如中文里面的“

Nltk安装及语料库包下载-------Python数据预处理

Nltk安装及语料库包下载 1 先下载模块 2在下载语料库 运行命令import nltk Nltk.download() 发现网页打不开,连接不到服务器 数据包下载: 百度网盘 链接:https://pan.baidu.com/s/108PCcxz1sLuOT1YAbmYf9g 提取码:p2zn 下载好放到对应的位置如 :我的site-package位置在D:/Pyth

事件抽取综述

事件抽取综述 1 基本概念1.1 事件1.2 事件抽取 2 国内外研究现状3 语料库3.1 ACE事件语料库3.2 MUC语料库3.3 TDT语料库3.4 KBP语料库3.5 ECB语料库3.6 CEC语料库 4 典型方法4.1 限定域事件抽取4.1.1 基于模式匹配的方法4.1.2 基于机器学习的方法 4.2 开放域事件抽取4.2.1

GraphPoet翻译

Class GraphPoet java.lang.Object   poet.GraphPoet public class GraphPoet extends Object 一个基于图的诗歌派生器。 GraphPoet由文本语料库初始化,它用这个语料库来派生一个单词亲和图word affinity graph。单词words用图中的顶点vertices表示。单词是不包括空格和换行

人工智能讲师ai讲师NLP讲师叶梓:人工智能之最新NLP自然语言处理技术与实战-14

接上一页 P30-P31 从情感词分析,如倾向性分类(褒,贬,中),情绪分类(喜,怒,悲,恐,惊)等。让机器人具有情感表达。在不同的领域都存在迁移的问题。如医患关系在医院与社会的评价是不同调的。如用事实陈述、比喻、反问、隐喻等表达情感。可以深入理解情感,知其然,亦知其所以然。进而可预测情感倾

NLTK语料库下载

仓库地址:https://github.com/Trkly/NLTK_DATA 希望能够帮到大家并希望大家给个star。 语料库的存放位置参考如下图:

第十九篇:主题建模Topic Modelling

目录 理解文本 问题 救援主题模型 主题是什么样的? 主题模型的应用? 大纲 主题模型简史 问题 概率 LSA(Latent Semantic Analysis)潜在语义分析 问题 Latent Dirichlet Allocation潜在狄利克雷分配 潜在狄利克雷分配 输入 输出 学习 采样方法(吉布斯) 我们什么时候停止? 超参数 评估

第三篇:文本分类

目录   分类基础 文本分类任务 分类算法 评估 分类基础 输入: 文本:通常表示成特征的向量所有类别:是分类的,不是连续的(回归)或有序的(排名) 输出: 预测的类别 文本分类任务 一些常见的例子: 主题分类 动机:图书馆科学,信息检索类别:话题类别,比如,‘工作’,或者‘国际新闻’语料库示例:

Python自然语言处理专栏目录

Python自然语言处理专栏目录 初体验HanLP—Python自然语言处理(1)切分算法—Python自然语言处理(2)字典树—Python自然语言处理(3)停用词过滤—Python自然语言处理(4)简繁体转换—Python自然语言处理(5)拼音转换—Python自然语言处理(6)语料库标注与训练模型—Python自然语言处理(7)预测分

【词向量】chiVe: Japanese Word Embedding with Sudachi & NWJC

发现了现成的日文词向量:https://github.com/WorksApplications/chiVe Abstract “chiVe”(Sudachi Vector)是一种基于大规模语料库和多粒度标记的日语预训练词嵌入资源。 Based on the skip-gram algorithm, we used word2vec (gensim) to train the vectors. 我们使用日本语言和

Bilibili 字幕语料库

文章目录 0 背景 1. 方案汇总 2. 可行性分析 2.1 tessertart-OCR 2.2 音频抽取转换 2.3 自有字幕文件 3. 字幕语料库构建 3.1 获取弹幕信息 3.2 转码处理 3.3 转换处理 4. 语料库建设 4.1 构建模型 4.2 测试模型 5. 预期收益 0 背景 近期在观看 Bi

【论文阅读】BERT-based Cohesion Analysis of Japanese Texts

论文地址:https://www.aclweb.org/anthology/2020.coling-main.114/ 代码地址:https://github.com/nobu-g/cohesion-analysis Demo演示:https://lotus.kuee.kyoto-u.ac.jp/~ueda/demo/cohesion-analysis-demo/public/ 基于BERT的日语语篇衔接分析 Abstract 自然语言文本的意义是由各

对语料库进行数据清洗、中文分词,建立训练词向量模型

目录 简述数据清洗去除关键字去除重复语句 中文分词使用gensim训练词向量模型word2vec的训练思路使用gensim训练词向量模型 结语 简述 接前述使用scrapy爬取文件建立聊天语料库一文,在对文件初步清洗之后。由于文本来源的特殊性,需要对其中的特殊关键词进行过滤,以及其他数

nltk语料库手动下载

先分享一下nltk语料库下载包。 链接:https://pan.baidu.com/s/1GwpTbVSDWEM3J02yY51J9A  提取码:immw  复制这段内容后打开百度网盘手机App,操作更方便哦。 下载后解压,把nltk_data-gh-pages文件夹里面的内容复制到nltk_data文件夹下,我复制的路径是 C:\Users\李贽\AppData\Roaming

阅读笔记——GloVe

文章目录 1. 来源2. 介绍3. 入门(代码下载)4. 下载预先训练好的词向量4.1 预先训练好的词向量4.2 用于预处理Twitter数据的Ruby[脚本](https://nlp.stanford.edu/projects/glove/preprocess-twitter.rb) 5. Giting GloVe6. 强调6.1 Nearest neighbors6.2 线性子结构 7. 训练8