首页 > TAG信息列表 > 词库

PC输入法使用记录

PC输入法使用记录 微软输入法 本来一直用的是微软的输入法,虽然在输入的时候智能提示很弱,但是常用词汇我自定义添加了,还设置了自定义短语,输入我设置的拼音就可以快读输入(有长度限制o(╥﹏╥)o),但是。。。。最近重装了系统,忘记备份词库了,瞬间崩溃,准备找其他的输入法试试了。 在网上看了

【Python】数据分析、爬取PDF文件使用Jieba词库进行分析计算银行数字化转型指数

一、需求 相关研究表明,银行等企业的数字化转型相关特征信息更容易体现在具有总结和指导性质的年度报表中(吴非,2021)。因此,通过统计银行年报中涉及“数字化转型”的词频来刻画其转型程度,具有可行性和科学性。具体而言,本文借助Python 爬虫功能对中国40家上市银行年度报表进行爬取,并采

利用nltk产生停用词库,并自定义停用词入库

nltk NLTK(Nature Language Toolkit)自然语言处理工具包。其对于大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能 stopwords fro

输入法词库解析(一)百度自定义方案.def

参考了 asd1fque1 的词库处理工具 js 实现 解析 码表偏移量 0x6D 占用字节数 描述 1 编码长度(红色框) 1 词长 * 2 + 2 由编码长度决定 编码(黄色框),可以是纯编码,也可以是 编码=位置 由词长决定 词(绿色框),utf16-le 编码 6 6 个空字节代表词条结束 golang 实现: fun

必应输入法体验

官方网站: http://bing.msn.cn/pinyin/help/135314.shtmlhttp://bing.msn.cn/pinyin/?from=desktophttp://go.microsoft.com/fwlink/?LinkId=288894&clcid=0x804 无法访问 成对的符号自动补齐 不支持 改进方案:比如输入(自动显示(),光标位于中间。 自定义符号 不支持改进方案:比如应允

R语言文本挖掘细胞词库的转换

搜狗细胞词库解析 一、 加载R包转换 library(rJava) library(Rwordseg) write.csv(as.data.frame(importSogouScel('wuliu.scel'))['dict.word'],'物流.csv') Dictionary: 物流词汇大全【官方推荐】 Type: 交通运输物流 Description: 官方推荐,词库来源于网友上传! 电子商务系统

R语言文本数据挖掘(三)

文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包,这里学习jiebaR包。 一

makedown过滤标签解决黑产内容通过<>规避词库检测的问题

makedown过滤标签解决黑产内容通过<>规避词库检测的问题 【需求背景】 用户发布的内容中包含富文本内容,包括a标签,img标签等,为了提升词库检测的准确性,目前在做词库检测之前,通过hutool的HtmlUtil.cleanHtmlTag将待检测文本进行过滤。 但cleanHtmlTag未校验标签的合法性,会存在误

elasticsearcch配远程词库

前提:安装elasticsearch,命令: docker run --name elasticsearch -p 9200:9200 -p 9300:9300 \ -e "discovery.type=single-node" \ -v ES_JAVA_OPTS="-Xms64m -Xmx512m" \ -v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/co

ES进阶(6)-自定义扩展词库

在实际分词中有些分词并不能出现我们预期的分词结果,因此我们可以使用自定义词库 1.安装nginx 在mydata下创建目录 mkdir nginx 启动实例 docker run -p 80:80 --name nginx 2.拷贝nginx的配置文件 将nginx容器内的配置文件拷贝到当前目录 docker container cp nginx:/et

编程语言python-jieba分词库

编程语言python-jieba分词库 jieba 库是优秀的中文分词第三方库,中文文本需要通过分词获得单个的词语 jieba库安装 管理员身份运行cmd窗口输入命令:pip install jieba jieba库功能介绍 特征 支持三种分词模式 精确模式:试图将句子最精确地切开,适合文本分析全模式:把句子中所有

python-jieba分词库

jieba 库是优秀的中文分词第三方库,中文文本需要通过分词获得单个的词语 jieba库安装 管理员身份运行cmd窗口输入命令:pip install jieba jieba库功能介绍 特征 支持三种分词模式 精确模式:试图将句子最精确地切开,适合文本分析 全模式:把句子中所有的可以成词的词语都扫描出来, 速

Elasticsearch7.15.2 ik中文分词器 定制化分词器之扩展词库

背景: IK分词提供的两个分词器,并不支持一些新的词汇,有时候也不能满足实际业务需要,这时候,我们可以定义自定义词库来完成目标。 目标: 定制化中文分词器,使得我们的中文分词器支持扩展的词汇 文章目录 一、搜索现状1. 搜索关键词2. 数据结果3. 数据分析4. ES IK分词5. IK分

jieba分词归纳总结

一、jieba介绍   jieba是NLP中常用的中文分词库 二、词库 1、默认词库   jieba 默认有349046个词,然后每行的含义是  : 词 词频 词性   首先来看看jieba分词每次启动时,做了件什么事情,它做了2件事情: 加载结巴自身的默认词库 将默认词库模型 加载到本机缓存,之后每次都从本地

IK分词器的安装与使用

1. IK分词器简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IK Analyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组

打造一个属于自己的个性化麦克米伦核心词库英汉小词典

文 / 王不留(微信公众号:王不留)   冷玥在文章《如何使用Anki巧记海量单词,轻松阅读经济学人,这有超详细图文教程》里特别说明了词汇量的重要性。   我们通过免费提供“经济学人高频词”牌组,已有很多朋友开始使用Anki记单词了。为他们点赞!   也有不少朋友习惯用传统方式背单词,询问有

wikitext数据集

WikiText用于长时间依赖的语言建模 WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的 Penn Treebank

node.js环境下安装nodejieba分词库

第一步 在node.js中文网上安装node.js:http://nodejs.cn/ 安装完后在cmd窗口中打npm -v指令 若有出现v后面一串数字(为版本号),则安装成功 第二步 在vscode的终端中输入npm init --yes配置npm依赖 第三步 在vscode的终端中输入npm install -g node-gyp配置node-gyp, 该工具是用来编

Elasticsearch之IK分词器配置

IK分词器配置文件讲解以及自定义词库实战 1、ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起 quantifier.dic:放了一些单位相关的词 suffix.dic:放了一些后缀

巧推网站SEO如何突破网站关键词排名的困境?

如果你在SEO这个领域,已经有很久的时间,你会发现:针对某些特定的关键词,你基于自身的SEO技术条件,怎么都是没办法使其得到合理的排名。     这个时候,我们可能就需要转换思路,而不是长此以往,每天做无用功。     那么,SEO如何突破网站排名的困境?     根据以往SEO培训的经验,我们将

ES概述

一、引言 1.1 海量数据 在海量数据中执行搜索功能时,如果使用MySQL,效率太低。使用like "%xxx%" 模糊查询时,会导致全表扫描。 1.2 高亮显示 将搜索关键字,以红色的字体展示。 二.ES概述 ES是一个使用Java语言并且基于Lucene编写的搜索引擎框架,他提供了分布式的全文搜索功能,

python jieba -----中文分词库

一、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词

挖掘行业长尾关键字以及词库的步骤

众所周知,优化的目的就是为了流量,最终获得用户。在做网站优化的过程中,拥有一份所在行业的长尾关键字词库是非常有必要的,因为它在网站流量建设中能起到非常好的辅助,也能更好的了解你所在的行业。不管是用哪种优化方法,长尾关键字词库都可以为用细分来路,引来精确的流量。在这里呢就简

ES 学习总结

ES 学习总结  ES的学习到这里也要告一段落了,如果喜欢的话可以跟视屏中,做最后一个小项目的 收货挺大的,那是属于人家的项目,虽说无私分享,但是我也不能贴人家的东西 接下来应该会写一篇,关于IK词库热加载的文章,因为项目的需求中用到了这个东西,需要词库热加载的 好了,加油

Elementary OS 使用fcitx安装搜狗词库、搜狗输入法(Ubuntu通用)

转: Elementary OS 使用fcitx安装搜狗词库、搜狗输入法(Ubuntu通用) 前言 刚开始接触Linux的小伙伴可能比较懵逼,我要使用ibus输入法还是fcitx(小企鹅)输入法,其实这两种都不能说是输入法,Linux中输入法的使用是依赖于输入法框架的,其中搜狗输入法和百度输入法都是依赖于fcitx框架的,当