首页 > TAG信息列表 > Pyhanlp
pyhanlp python3.9及以上安装
Python3.9及以上版本安装Pyhanlp Pyhanlp的setup.py里面代码会制止我们在高版本上安装。 如图,源码是有这一段强制不在Python3.9以上安装,一般来说,既然我们已经安装不了了,那么把代码改掉会有什么代价呢? Jpype1这个库的版本要用不会出错的,什么意思呢,这里你可以先不改,但是后面安装出手动安装pyhanlp
我手动安装的原因是,pip install pyhanlp自动安装出错了,出现下面错误: 估计是安装不上JPype1-0.7.0版本。百度了很多方法也没用,最后只能尝试手动去安装了。 本文记录一下方法,方便日后工作。 1.手动安装教程 参考链接:Window离线环境下如何安装pyhanlp - 左手中倒影 - 博客园Hanlpyhanlp常用功能
HanLP提供下列功能: 中文分词 1.最短路分词(Dijkstra精度已经足够,且速度比N最短快几倍) 2.N-最短路分词(与Dijkstra对比,D已够用) 3.CRF分词(对新词较有效) 4.索引分词(长词切分,索引所有可能词) 5.极速词典分词(速度快,精度一般) 6.用户自定义词典 7.标准分词(HMM-Viterbi) 命名实体识别 1.1102-诗词类别补充与pyhanlp探索
诗词类别补充 爬取对应的唐代,宋代,元代,明代,清代的诗词类别 网站爬取的页面如下: 爬取代码: 不在重复爬取之前爬过的数据,直接爬取需要的分类信息 import requests from bs4 import BeautifulSoup from lxml import etree headers = {'user-agent':'Mozilla/5.0 (Windows NT 10使用pyhanlp进行分词
from pyhanlp import * def my_segment(sentence): seg = HanLP.segment(sentence) seg2 = list(seg) seg3 = list(map(lambda x: str(x), seg2)) seg4 = list(map(lambda x: x.split('/')[0], seg3)) return seg4 seg = my_segment('自然由于在pyhanlp中使用load_dictionary没有作用,亲测一种实际有效的方法
一、看到相关教程,有一个添加字典的方法,亲测无效: 1 # -*- coding:utf-8 -*- 2 # Author:hankcs 3 # Date: 2018-05-24 22:11 4 # 《自然语言处理入门》2.2.2 词典的加载 5 # 配套书籍:http://nlp.hankcs.com/book.php 6 # 讨论答疑:https://bbs.hankcs.com/ 7 from pyhanlp impython3 安装pyhanlp遇到问题及解决方法
①在python非官方库网站上下载库jpyre1的whl文件 https://www.lfd.uci.edu/~gohlke/pythonlibs cp后面的数字代表python版本,我的是3.5所以下载的ad3-2.2.1-cp35-cp35m-win_amd64.whl。 ②pip install ad3-2.2.1-cp35-cp35m-win_amd64.whl就OK了!学者信息问答系统的中期笔记
开学的专业实习,我选定的题目是学者信息问答系统。因为它符合将来的研究方向,也能作为一个功能加入到当前导师开发的微信小进程中。 很可惜,虽然富于研究价值,但由于遇到了需要标注大量数据、功能不够实用等问题,半途中要改变选题,因此在此做一个中期记录。 研究方案 需求 首先需要明pyhanlp 繁简转换之拼音转换与字符正则化
繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 ·说明 · HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇