其他分享
首页 > 其他分享> > Handle 用法整理大全(切词、提取关键字、加字典、加停用词、提取摘要、提取短语、实现无监督分类)

Handle 用法整理大全(切词、提取关键字、加字典、加停用词、提取摘要、提取短语、实现无监督分类)

作者:互联网

切词:

1 from pyhanlp import *
2 content = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
3 CoreStopWordDictionary = JClass("com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary")
4 Get_value=HanLP.segment(content)
5 print(Get_value)

加词典:

 1 from pyhanlp import *
 2 content = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
 3 CoreStopWordDictionary = JClass("com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary")
 4 Get_value=HanLP.segment(content)
 5 print("加词典前:\n",Get_value)
 6 # insert会覆盖字典中已经存在的词,add会跳过已经存在的词
 7 CustomDictionary.add("图片处理", "nr 300")
 8 CustomDictionary.insert("语音识别", "nz 1024")
 9 CustomDictionary.add("巨大成功", "nz 1024 n 1")
10 
11 Get_value=HanLP.segment(content)
12 print("加词典后:\n",Get_value)
13 for term in Get_value:
14     print(term)
15     print('{}\t{}'.format(term.word, term.nature))

关键字、摘要、短语

1 from pyhanlp import *
2 document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露," \
3            "根据刚刚完成了水资源管理制度的考核,有部分省接近了红线的指标," \
4            "有部分省超过红线的指标,对一些超过红线的地方,陈明忠表示,对一些取用水项目进行区域的限批," \
5            "严格地进行水资源论证和取水许可的批准。"

关键字:

#关键字
print(HanLP.extractKeyword(document, 2))

摘要:

#摘要
print(HanLP.extractSummary(document, 4))

短语:

#短语
phrases = HanLP.extractPhrase(document,10)
print(phrases)

依法依据分析

#依法依据分析
sentence = HanLP.parseDependency(document)
for word in sentence.iterator():  # 通过dir()可以查看sentence的方法
    print("%d %s/%s --(%s)--> %s(%s)" % (word.ID, word.LEMMA, word.POSTAG, word.DEPREL, word.HEAD.LEMMA, word.HEAD.ID))

停用词:

方法一:动态添加停用词:

 1 # 停用词
 2 
 3 # 在import pyhanlp之前编译自己的Java class,并放入pyhanlp/static中
 4 import os
 5 from pyhanlp import *
 6 from pyhanlp.static import STATIC_ROOT, HANLP_JAR_PATH
 7 
 8 java_code_path = os.path.join(STATIC_ROOT, 'MyFilter.java')
 9 with open(java_code_path, 'w') as out:
10     java_code = """
11 import com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary;
12 import com.hankcs.hanlp.dictionary.stopword.Filter;
13 import com.hankcs.hanlp.seg.common.Term;
14 
15 public class MyFilter implements Filter
16 {
17     public boolean shouldInclude(Term term)
18     {
19         if (term.nature.startsWith('m')) return true; // 数词保留
20         return !CoreStopWordDictionary.contains(term.word); // 停用词过滤
21     }
22 }
23 """
24     out.write(java_code)
25 os.system('javac -cp {} {} -d {}'.format(HANLP_JAR_PATH, java_code_path, STATIC_ROOT))
26 # 编译结束才可以启动hanlp
27 CoreStopWordDictionary = JClass("com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary")
28 Filter = JClass("com.hankcs.hanlp.dictionary.stopword.Filter")
29 Term = JClass("com.hankcs.hanlp.seg.common.Term")
30 BasicTokenizer = JClass("com.hankcs.hanlp.tokenizer.BasicTokenizer")
31 NotionalTokenizer = JClass("com.hankcs.hanlp.tokenizer.NotionalTokenizer")
32 
33 text = "小区居民有的反对喂养流浪猫,而有的居民却赞成喂养这些小宝贝"
34 # 可以动态修改停用词词典
35 CoreStopWordDictionary.add("居民")
36 print(NotionalTokenizer.segment(text))
37 
38 CoreStopWordDictionary.remove("居民")
39 print(HanLP.extractKeyword(text, 20))
40 print(NotionalTokenizer.segment(text))
41 
42 # 可以对任意分词器的结果执行过滤
43 term_list = BasicTokenizer.segment(text)
44 print(term_list)
45 CoreStopWordDictionary.apply(term_list)
46 print(term_list)
47 
48 # 还可以自定义过滤逻辑
49 MyFilter = JClass('MyFilter')
50 CoreStopWordDictionary.FILTER = MyFilter()
51 print(NotionalTokenizer.segment("数字123安全的保留"))  # “的”位于stopwords.txt所以被过滤,数字得到保留
动态添加停用词

方法二:修改stopswords.txt(本txt可以任意安放不需要按照其他教程中修改handle自带stopswords.txt)

stopwords.txt:

   1 去年
   2 nan
   3 安全
   4 食品
   5 一个
   6 中国
   7 自己
   8 可以
   9 我们
  10 他们
  11 美国
  12 没有
  13 问题
  14 这个
  15 生产
  16 进行
  17 万元
  18 现在
  19 很多
  20 不是
  21 如果
  22 这些
  23 进行
  24 这样
  25 福喜
  26 推进
  27 建设
  28 调查
  29 什么
  30 工作
  31 2014
  32 注册
  33 公布
  34 关注
  35 !
  36 "
  37 #
  38 $
  39 %
  40 &
  41 '
  42 (
  43 )
  44 *
  45 +
  46 ,
  47 -
  48 --
  49 .
  50 ..
  51 ...
  52 ......
  53 ...................
  54 ./
  55 .一
  56 记者
  57 数
  58 年
  59 月
  60 日
  61 时
  62 分
  63 秒
  64 /
  65 //
  66 0
  67 1
  68 2
  69 3
  70 4
  71 5
  72 6
  73 7
  74 8
  75 9
  76 :
  77 ://
  78 ::
  79 ;
  80 <
  81 =
  82 >
  83 >>
  84 ?
  85 @
  86 A
  87 Lex
  88 [
  89 \
  90 ]
  91 【
  92 】
  93 ^
  94 _
  95 `
  96 exp
  97 sub
  98 sup
  99 |
 100 }
 101 ~
 102 ~~~~
 103 ·
 104 ×
 105 ×××
 106 Δ
 107 Ψ
 108 γ
 109 μ
 110 φ
 111 φ.
 112 В
 113 —
 114 ——
 115 ———
 116 ‘
 117 ’
 118 ’‘
 119 “
 120 ”
 121 ”,
 122 …
 123 ……
 124 …………………………………………………③
 125 ′∈
 126 ′|
 127 ℃
 128 Ⅲ
 129 ↑
 130 →
 131 ∈[
 132 ∪φ∈
 133 ≈
 134 ①
 135 ②
 136 ②c
 137 ③
 138 ③]
 139 ④
 140 ⑤
 141 ⑥
 142 ⑦
 143 ⑧
 144 ⑨
 145 ⑩
 146 ──
 147 ■
 148 ▲
 149  
 150 、
 151 。
 152 〈
 153 〉
 154 《
 155 》
 156 》),
 157 」
 158 『
 159 』
 160 〔
 161 〕
 162 〕〔
 163 ㈧
 164 一
 165 一.
 166 一一
 167 一下
 168 一些
 169 一何
 170 一切
 171 一则
 172 一则通过
 173 一天
 174 一定
 175 一方面
 176 一旦
 177 一时
 178 一来
 179 一样
 180 一次
 181 一片
 182 一番
 183 一直
 184 一致
 185 一般
 186 一起
 187 一转眼
 188 一边
 189 一面
 190 七
 191 万一
 192 三
 193 三天两头
 194 三番两次
 195 三番五次
 196 上
 197 上下
 198 上升
 199 上去
 200 上来
 201 上述
 202 上面
 203 下
 204 下列
 205 下去
 206 下来
 207 下面
 208 不
 209 不一
 210 不下
 211 不久
 212 不了
 213 不亦乐乎
 214 不仅
 215 不仅...而且
 216 不仅仅
 217 不仅仅是
 218 不会
 219 不但
 220 不但...而且
 221 不光
 222 不免
 223 不再
 224 不力
 225 不单
 226 不变
 227 不只
 228 不可
 229 不可开交
 230 不可抗拒
 231 不同
 232 不外
 233 不外乎
 234 不够
 235 不大
 236 不如
 237 不妨
 238 不定
 239 不对
 240 不少
 241 不尽
 242 不尽然
 243 不巧
 244 不已
 245 不常
 246 不得
 247 不得不
 248 不得了
 249 不得已
 250 不必
 251 不怎么
 252 不怕
 253 不惟
 254 不成
 255 不拘
 256 不择手段
 257 不敢
 258 不料
 259 不断
 260 不日
 261 不时
 262 不曾
 263 不止
 264 不止一次
 265 不比
 266 不消
 267 不满
 268 不然
 269 不然的话
 270 不特
 271 不独
 272 不由得
 273 不知不觉
 274 不管
 275 不管怎样
 276 不经意
 277 不胜
 278 不能
 279 不能不
 280 不至于
 281 不若
 282 不要
 283 不论
 284 不起
 285 不足
 286 不过
 287 不迭
 288 不问
 289 不限
 290 与
 291 与其
 292 与其说
 293 与否
 294 与此同时
 295 专门
 296 且
 297 且不说
 298 且说
 299 两者
 300 严格
 301 严重
 302 个
 303 个人
 304 个别
 305 中小
 306 中间
 307 丰富
 308 串行
 309 临
 310 临到
 311 为
 312 为主
 313 为了
 314 为什么
 315 为什麽
 316 为何
 317 为止
 318 为此
 319 为着
 320 主张
 321 主要
 322 举凡
 323 举行
 324 乃
 325 乃至
 326 乃至于
 327 么
 328 之
 329 之一
 330 之前
 331 之后
 332 之後
 333 之所以
 334 之类
 335 乌乎
 336 乎
 337 乒
 338 乘
 339 乘势
 340 乘机
 341 乘胜
 342 乘虚
 343 乘隙
 344 九
 345 也
 346 也好
 347 也就是说
 348 也是
 349 也罢
 350 了
 351 了解
 352 争取
 353 二
 354 二来
 355 二话不说
 356 二话没说
 357 于
 358 于是
 359 于是乎
 360 云云
 361 云尔
 362 互
 363 互相
 364 五
 365 些
 366 交口
 367 亦
 368 产生
 369 亲口
 370 亲手
 371 亲眼
 372 亲自
 373 亲身
 374 人
 375 人人
 376 人们
 377 人家
 378 人民
 379 什么样
 380 什麽
 381 仅
 382 仅仅
 383 今
 384 今后
 385 今天
 386 今年
 387 今後
 388 介于
 389 仍
 390 仍旧
 391 仍然
 392 从
 393 从不
 394 从严
 395 从中
 396 从事
 397 从今以后
 398 从优
 399 从古到今
 400 从古至今
 401 从头
 402 从宽
 403 从小
 404 从新
 405 从无到有
 406 从早到晚
 407 从未
 408 从来
 409 从此
 410 从此以后
 411 从而
 412 从轻
 413 从速
 414 从重
 415 他
 416 他人
 417 他是
 418 他的
 419 代替
 420 以
 421 以上
 422 以下
 423 以为
 424 以便
 425 以免
 426 以前
 427 以及
 428 以后
 429 以外
 430 以後
 431 以故
 432 以期
 433 以来
 434 以至
 435 以至于
 436 以致
 437 们
 438 任
 439 任何
 440 任凭
 441 任务
 442 企图
 443 伙同
 444 会
 445 伟大
 446 传
 447 传说
 448 传闻
 449 似乎
 450 似的
 451 但
 452 但凡
 453 但愿
 454 但是
 455 何
 456 何乐而不为
 457 何以
 458 何况
 459 何处
 460 何妨
 461 何尝
 462 何必
 463 何时
 464 何止
 465 何苦
 466 何须
 467 余外
 468 作为
 469 你
 470 你们
 471 你是
 472 你的
 473 使
 474 使得
 475 使用
 476 例如
 477 依
 478 依据
 479 依照
 480 依靠
 481 便
 482 便于
 483 促进
 484 保持
 485 保管
 486 保险
 487 俺
 488 俺们
 489 倍加
 490 倍感
 491 倒不如
 492 倒不如说
 493 倒是
 494 倘
 495 倘使
 496 倘或
 497 倘然
 498 倘若
 499 借
 500 借以
 501 借此
 502 假使
 503 假如
 504 假若
 505 偏偏
 506 做到
 507 偶尔
 508 偶而
 509 傥然
 510 像
 511 儿
 512 允许
 513 元/吨
 514 充其极
 515 充其量
 516 充分
 517 先不先
 518 先后
 519 先後
 520 先生
 521 光
 522 光是
 523 全体
 524 全力
 525 全年
 526 全然
 527 全身心
 528 全部
 529 全都
 530 全面
 531 八
 532 八成
 533 公然
 534 六
 535 兮
 536 共
 537 共同
 538 共总
 539 关于
 540 其
 541 其一
 542 其中
 543 其二
 544 其他
 545 其余
 546 其后
 547 其它
 548 其实
 549 其次
 550 具体
 551 具体地说
 552 具体来说
 553 具体说来
 554 具有
 555 兼之
 556 内
 557 再
 558 再其次
 559 再则
 560 再有
 561 再次
 562 再者
 563 再者说
 564 再说
 565 冒
 566 冲
 567 决不
 568 决定
 569 决非
 570 况且
 571 准备
 572 凑巧
 573 凝神
 574 几
 575 几乎
 576 几度
 577 几时
 578 几番
 579 几经
 580 凡
 581 凡是
 582 凭
 583 凭借
 584 出
 585 出于
 586 出去
 587 出来
 588 出现
 589 分别
 590 分头
 591 分期
 592 分期分批
 593 切
 594 切不可
 595 切切
 596 切勿
 597 切莫
 598 则
 599 则甚
 600 刚
 601 刚好
 602 刚巧
 603 刚才
 604 初
 605 别
 606 别人
 607 别处
 608 别是
 609 别的
 610 别管
 611 别说
 612 到
 613 到了儿
 614 到处
 615 到头
 616 到头来
 617 到底
 618 到目前为止
 619 前后
 620 前此
 621 前者
 622 前进
 623 前面
 624 加上
 625 加之
 626 加以
 627 加入
 628 加强
 629 动不动
 630 动辄
 631 勃然
 632 匆匆
 633 十分
 634 千
 635 千万
 636 千万千万
 637 半
 638 单
 639 单单
 640 单纯
 641 即
 642 即令
 643 即使
 644 即便
 645 即刻
 646 即如
 647 即将
 648 即或
 649 即是说
 650 即若
 651 却
 652 却不
 653 历
 654 原来
 655 去
 656 又
 657 又及
 658 及
 659 及其
 660 及时
 661 及至
 662 双方
 663 反之
 664 反之亦然
 665 反之则
 666 反倒
 667 反倒是
 668 反应
 669 反手
 670 反映
 671 反而
 672 反过来
 673 反过来说
 674 取得
 675 取道
 676 受到
 677 变成
 678 古来
 679 另
 680 另一个
 681 另一方面
 682 另外
 683 另悉
 684 另方面
 685 另行
 686 只
 687 只当
 688 只怕
 689 只是
 690 只有
 691 只消
 692 只要
 693 只限
 694 叫
 695 叫做
 696 召开
 697 叮咚
 698 叮当
 699 可
 700 可好
 701 可是
 702 可能
 703 可见
 704 各
 705 各个
 706 各人
 707 各位
 708 各地
 709 各式
 710 各种
 711 各级
 712 各自
 713 合理
 714 同
 715 同一
 716 同时
 717 同样
 718 后
 719 后来
 720 后者
 721 后面
 722 向
 723 向使
 724 向着
 725 吓
 726 吗
 727 否则
 728 吧
 729 吧哒
 730 吱
 731 呀
 732 呃
 733 呆呆地
 734 呐
 735 呕
 736 呗
 737 呜
 738 呜呼
 739 呢
 740 周围
 741 呵
 742 呵呵
 743 呸
 744 呼哧
 745 呼啦
 746 咋
 747 和
 748 咚
 749 咦
 750 咧
 751 咱
 752 咱们
 753 咳
 754 哇
 755 哈
 756 哈哈
 757 哉
 758 哎
 759 哎呀
 760 哎哟
 761 哗
 762 哗啦
 763 哟
 764 哦
 765 哩
 766 哪
 767 哪个
 768 哪些
 769 哪儿
 770 哪天
 771 哪年
 772 哪怕
 773 哪样
 774 哪边
 775 哪里
 776 哼
 777 哼唷
 778 唉
 779 唯有
 780 啊
 781 啊呀
 782 啊哈
 783 啊哟
 784 啐
 785 啥
 786 啦
 787 啪达
 788 啷当
 789 喀
 790 喂
 791 喏
 792 喔唷
 793 喽
 794 嗡
 795 嗡嗡
 796 嗬
 797 嗯
 798 嗳
 799 嘎
 800 嘎嘎
 801 嘎登
 802 嘘
 803 嘛
 804 嘻
 805 嘿
 806 嘿嘿
 807 四
 808 因
 809 因为
 810 因了
 811 因此
 812 因着
 813 因而
 814 固
 815 固然
 816 在
 817 在下
 818 在于
 819 地
 820 均
 821 坚决
 822 坚持
 823 基于
 824 基本
 825 基本上
 826 处在
 827 处处
 828 处理
 829 复杂
 830 多
 831 多么
 832 多亏
 833 多多
 834 多多少少
 835 多多益善
 836 多少
 837 多年前
 838 多年来
 839 多数
 840 多次
 841 够瞧的
 842 大
 843 大不了
 844 大举
 845 大事
 846 大体
 847 大体上
 848 大凡
 849 大力
 850 大多
 851 大多数
 852 大大
 853 大家
 854 大张旗鼓
 855 大批
 856 大抵
 857 大概
 858 大略
 859 大约
 860 大致
 861 大都
 862 大量
 863 大面儿上
 864 失去
 865 奇
 866 奈
 867 奋勇
 868 她
 869 她们
 870 她是
 871 她的
 872 好
 873 好在
 874 好的
 875 好象
 876 如
 877 如上
 878 如上所述
 879 如下
 880 如今
 881 如何
 882 如其
 883 如前所述
 884 如同
 885 如常
 886 如是
 887 如期
 888 如次
 889 如此
 890 如此等等
 891 如若
 892 始而
 893 姑且
 894 存在
 895 存心
 896 孰料
 897 孰知
 898 宁
 899 宁可
 900 宁愿
 901 宁肯
 902 它
 903 它们
 904 它们的
 905 它是
 906 它的
 907 完全
 908 完成
 909 定
 910 实现
 911 实际
 912 宣布
 913 容易
 914 密切
 915 对
 916 对于
 917 对应
 918 对待
 919 对方
 920 对比
 921 将
 922 将才
 923 将要
 924 将近
 925 小
 926 少数
 927 尔
 928 尔后
 929 尔尔
 930 尔等
 931 尚且
 932 尤其
 933 就
 934 就地
 935 就是
 936 就是了
 937 就是说
 938 就此
 939 就算
 940 就要
 941 尽
 942 尽可能
 943 尽如人意
 944 尽心尽力
 945 尽心竭力
 946 尽快
 947 尽早
 948 尽然
 949 尽管
 950 尽管如此
 951 尽量
 952 局外
 953 居然
 954 届时
 955 属于
 956 屡
 957 屡屡
 958 屡次
 959 屡次三番
 960 岂
 961 岂但
 962 岂止
 963 岂非
 964 川流不息
 965 左右
 966 巨大
 967 巩固
 968 差一点
 969 差不多
 970 己
 971 已
 972 已矣
 973 已经
 974 巴
 975 巴巴
 976 带
 977 帮助
 978 常
 979 常常
 980 常言说
 981 常言说得好
 982 常言道
 983 平素
 984 年复一年
 985 并
 986 并不
 987 并不是
 988 并且
 989 并排
 990 并无
 991 并没
 992 并没有
 993 并肩
 994 并非
 995 广大
 996 广泛
 997 应当
 998 应用
 999 应该
1000 庶乎
1001 庶几
1002 开外
1003 开始
1004 开展
1005 引起
1006 弗
1007 弹指之间
1008 强烈
1009 强调
1010 归
1011 归根到底
1012 归根结底
1013 归齐
1014 当
1015 当下
1016 当中
1017 当儿
1018 当前
1019 当即
1020 当口儿
1021 当地
1022 当场
1023 当头
1024 当庭
1025 当时
1026 当然
1027 当真
1028 当着
1029 形成
1030 彻夜
1031 彻底
1032 彼
1033 彼时
1034 彼此
1035 往
1036 往往
1037 待
1038 待到
1039 很
1040 很少
1041 後来
1042 後面
1043 得
1044 得了
1045 得出
1046 得到
1047 得天独厚
1048 得起
1049 心里
1050 必
1051 必定
1052 必将
1053 必然
1054 必要
1055 必须
1056 快
1057 快要
1058 忽地
1059 忽然
1060 怎
1061 怎么
1062 怎么办
1063 怎么样
1064 怎奈
1065 怎样
1066 怎麽
1067 怕
1068 急匆匆
1069 怪
1070 怪不得
1071 总之
1072 总是
1073 总的来看
1074 总的来说
1075 总的说来
1076 总结
1077 总而言之
1078 恍然
1079 恐怕
1080 恰似
1081 恰好
1082 恰如
1083 恰巧
1084 恰恰
1085 恰恰相反
1086 恰逢
1087 您
1088 您们
1089 您是
1090 惟其
1091 惯常
1092 意思
1093 愤然
1094 愿意
1095 慢说
1096 成为
1097 成年
1098 成年累月
1099 成心
1100 我
1101 我是
1102 我的
1103 或
1104 或则
1105 或多或少
1106 或是
1107 或曰
1108 或者
1109 或许
1110 战斗
1111 截然
1112 截至
1113 所
1114 所以
1115 所在
1116 所幸
1117 所有
1118 所谓
1119 才
1120 才能
1121 扑通
1122 打
1123 打从
1124 打开天窗说亮话
1125 扩大
1126 把
1127 抑或
1128 抽冷子
1129 拦腰
1130 拿
1131 按
1132 按时
1133 按期
1134 按照
1135 按理
1136 按说
1137 挨个
1138 挨家挨户
1139 挨次
1140 挨着
1141 挨门挨户
1142 挨门逐户
1143 换句话说
1144 换言之
1145 据
1146 据实
1147 据悉
1148 据我所知
1149 据此
1150 据称
1151 据说
1152 掌握
1153 接下来
1154 接着
1155 接著
1156 接连不断
1157 放量
1158 故
1159 故意
1160 故此
1161 故而
1162 敞开儿
1163 敢
1164 敢于
1165 敢情
1166 数/
1167 整个
1168 断然
1169 方
1170 方便
1171 方才
1172 方能
1173 方面
1174 旁人
1175 无
1176 无宁
1177 无法
1178 无论
1179 既
1180 既...又
1181 既往
1182 既是
1183 既然
1184 日复一日
1185 日渐
1186 日益
1187 日臻
1188 日见
1189 时候
1190 昂然
1191 明显
1192 明确
1193 是
1194 是不是
1195 是以
1196 是否
1197 是的
1198 显然
1199 显著
1200 普通
1201 普遍
1202 暗中
1203 暗地里
1204 暗自
1205 更
1206 更为
1207 更加
1208 更进一步
1209 曾
1210 曾经
1211 替
1212 替代
1213 最
1214 最后
1215 最大
1216 最好
1217 最後
1218 最近
1219 最高
1220 有
1221 有些
1222 有关
1223 有利
1224 有力
1225 有及
1226 有所
1227 有效
1228 有时
1229 有点
1230 有的
1231 有的是
1232 有着
1233 有著
1234 望
1235 朝
1236 朝着
1237 末##末
1238 本
1239 本人
1240 本地
1241 本着
1242 本身
1243 权时
1244 来
1245 来不及
1246 来得及
1247 来看
1248 来着
1249 来自
1250 来讲
1251 来说
1252 极
1253 极为
1254 极了
1255 极其
1256 极力
1257 极大
1258 极度
1259 极端
1260 构成
1261 果然
1262 果真
1263 某
1264 某个
1265 某些
1266 某某
1267 根据
1268 根本
1269 格外
1270 梆
1271 概
1272 次第
1273 欢迎
1274 欤
1275 正值
1276 正在
1277 正如
1278 正巧
1279 正常
1280 正是
1281 此
1282 此中
1283 此后
1284 此地
1285 此处
1286 此外
1287 此时
1288 此次
1289 此间
1290 殆
1291 毋宁
1292 每
1293 每个
1294 每天
1295 每年
1296 每当
1297 每时每刻
1298 每每
1299 每逢
1300 比
1301 比及
1302 比如
1303 比如说
1304 比方
1305 比照
1306 比起
1307 比较
1308 毕竟
1309 毫不
1310 毫无
1311 毫无例外
1312 毫无保留地
1313 汝
1314 沙沙
1315 没
1316 没奈何
1317 沿
1318 沿着
1319 注意
1320 活
1321 深入
1322 清楚
1323 满
1324 满足
1325 漫说
1326 焉
1327 然
1328 然则
1329 然后
1330 然後
1331 然而
1332 照
1333 照着
1334 牢牢
1335 特别是
1336 特殊
1337 特点
1338 犹且
1339 犹自
1340 独
1341 独自
1342 猛然
1343 猛然间
1344 率尔
1345 率然
1346 现代
1347 理应
1348 理当
1349 理该
1350 瑟瑟
1351 甚且
1352 甚么
1353 甚或
1354 甚而
1355 甚至
1356 甚至于
1357 用
1358 用来
1359 甫
1360 甭
1361 由
1362 由于
1363 由是
1364 由此
1365 由此可见
1366 略
1367 略为
1368 略加
1369 略微
1370 白
1371 白白
1372 的
1373 的确
1374 的话
1375 皆可
1376 目前
1377 直到
1378 直接
1379 相似
1380 相信
1381 相反
1382 相同
1383 相对
1384 相对而言
1385 相应
1386 相当
1387 相等
1388 省得
1389 看
1390 看上去
1391 看出
1392 看到
1393 看来
1394 看样子
1395 看看
1396 看见
1397 看起来
1398 真是
1399 真正
1400 眨眼
1401 着
1402 着呢
1403 矣
1404 矣乎
1405 矣哉
1406 知道
1407 砰
1408 确定
1409 碰巧
1410 社会主义
1411 离
1412 种
1413 积极
1414 移动
1415 究竟
1416 穷年累月
1417 突出
1418 突然
1419 窃
1420 立
1421 立刻
1422 立即
1423 立地
1424 立时
1425 立马
1426 竟
1427 竟然
1428 竟而
1429 第
1430 第二
1431 等
1432 等到
1433 等等
1434 策略地
1435 简直
1436 简而言之
1437 简言之
1438 管
1439 类如
1440 粗
1441 精光
1442 紧接着
1443 累年
1444 累次
1445 纯
1446 纯粹
1447 纵
1448 纵令
1449 纵使
1450 纵然
1451 练习
1452 组成
1453 经
1454 经常
1455 经过
1456 结合
1457 结果
1458 给
1459 绝
1460 绝不
1461 绝对
1462 绝非
1463 绝顶
1464 继之
1465 继后
1466 继续
1467 继而
1468 维持
1469 综上所述
1470 缕缕
1471 罢了
1472 老
1473 老大
1474 老是
1475 老老实实
1476 考虑
1477 者
1478 而
1479 而且
1480 而况
1481 而又
1482 而后
1483 而外
1484 而已
1485 而是
1486 而言
1487 而论
1488 联系
1489 联袂
1490 背地里
1491 背靠背
1492 能
1493 能否
1494 能够
1495 腾
1496 自
1497 自个儿
1498 自从
1499 自各儿
1500 自后
1501 自家
1502 自打
1503 自身
1504 臭
1505 至
1506 至于
1507 至今
1508 至若
1509 致
1510 般的
1511 良好
1512 若
1513 若夫
1514 若是
1515 若果
1516 若非
1517 范围
1518 莫
1519 莫不
1520 莫不然
1521 莫如
1522 莫若
1523 莫非
1524 获得
1525 藉以
1526 虽
1527 虽则
1528 虽然
1529 虽说
1530 蛮
1531 行为
1532 行动
1533 表明
1534 表示
1535 被
1536 要
1537 要不
1538 要不是
1539 要不然
1540 要么
1541 要是
1542 要求
1543 见
1544 规定
1545 觉得
1546 譬喻
1547 譬如
1548 认为
1549 认真
1550 认识
1551 让
1552 许多
1553 论
1554 论说
1555 设使
1556 设或
1557 设若
1558 诚如
1559 诚然
1560 话说
1561 该
1562 该当
1563 说明
1564 说来
1565 说说
1566 请勿
1567 诸
1568 诸位
1569 诸如
1570 谁
1571 谁人
1572 谁料
1573 谁知
1574 谨
1575 豁然
1576 贼死
1577 赖以
1578 赶
1579 赶快
1580 赶早不赶晚
1581 起
1582 起先
1583 起初
1584 起头
1585 起来
1586 起见
1587 起首
1588 趁
1589 趁便
1590 趁势
1591 趁早
1592 趁机
1593 趁热
1594 趁着
1595 越是
1596 距
1597 跟
1598 路经
1599 转动
1600 转变
1601 转贴
1602 轰然
1603 较
1604 较为
1605 较之
1606 较比
1607 边
1608 达到
1609 达旦
1610 迄
1611 迅速
1612 过
1613 过于
1614 过去
1615 过来
1616 运用
1617 近
1618 近几年来
1619 近年来
1620 近来
1621 还
1622 还是
1623 还有
1624 还要
1625 这
1626 这一来
1627 这么
1628 这么些
1629 这么样
1630 这么点儿
1631 这会儿
1632 这儿
1633 这就是说
1634 这时
1635 这次
1636 这点
1637 这种
1638 这般
1639 这边
1640 这里
1641 这麽
1642 进入
1643 进去
1644 进来
1645 进步
1646 进而
1647 连
1648 连同
1649 连声
1650 连日
1651 连日来
1652 连袂
1653 连连
1654 迟早
1655 迫于
1656 适应
1657 适当
1658 适用
1659 逐步
1660 逐渐
1661 通常
1662 通过
1663 造成
1664 逢
1665 遇到
1666 遭到
1667 遵循
1668 遵照
1669 避免
1670 那
1671 那个
1672 那么
1673 那么些
1674 那么样
1675 那些
1676 那会儿
1677 那儿
1678 那时
1679 那末
1680 那样
1681 那般
1682 那边
1683 那里
1684 那麽
1685 部分
1686 都
1687 鄙人
1688 采取
1689 里面
1690 重大
1691 重新
1692 重要
1693 鉴于
1694 针对
1695 长期以来
1696 长此下去
1697 长线
1698 长话短说
1699 间或
1700 防止
1701 阿
1702 附近
1703 陈年
1704 限制
1705 陡然
1706 除
1707 除了
1708 除却
1709 除去
1710 除外
1711 除开
1712 除此
1713 除此之外
1714 除此以外
1715 除此而外
1716 除非
1717 随
1718 随后
1719 随时
1720 随着
1721 随著
1722 隔夜
1723 隔日
1724 难得
1725 难怪
1726 难说
1727 难道
1728 难道说
1729 集中
1730 零
1731 需要
1732 非但
1733 非常
1734 非徒
1735 非得
1736 非特
1737 非独
1738 靠
1739 顶多
1740 顷
1741 顷刻
1742 顷刻之间
1743 顷刻间
1744 顺
1745 顺着
1746 顿时
1747 颇
1748 风雨无阻
1749 饱
1750 首先
1751 马上
1752 高低
1753 高兴
1754 默然
1755 默默地
1756 齐
1757 ︿
1758 !
1759 #
1760 $
1761 %
1762 &
1763 '
1764 (
1765 )
1766 )÷(1-
1767 )、
1768 *
1769 +
1770 +ξ
1771 ++
1772 ,
1773 ,也
1774 -
1775 -β
1776 --
1777 -[*]-
1778 .
1779 /
1780 0
1781 0:2
1782 1
1783 1.
1784 12%
1785 2
1786 2.3%
1787 3
1788 4
1789 5
1790 5:0
1791 6
1792 7
1793 8
1794 9
1795 :
1796 ;
1797 <
1798 <±
1799 <Δ
1800 <λ
1801 <φ
1802 <<
1803 =
1804 =″
1805 =☆
1806 =(
1807 =-
1808 =[
1809 ={
1810 >
1811 >λ
1812 ?
1813 @
1814 A
1815 LI
1816 R.L.
1817 ZXFITL
1818 
1819 [*]
1820 [-
1821 []
1822 ]
1823 ]∧′=[
1824 ][
1825 _
1826 a]
1827 b]
1828 c]
1829 e]
1830 f]
1831 ng昉
1832 {
1833 {-
1834 |
1835 }
1836 }>
1837 ~
1838 ~±
1839 ~+
1840 ¥
1841 secondly
1842 all
1843 whose
1844 under
1845 sorry
1846 four
1847 we'll
1848 somewhere
1849 likely
1850 even
1851 above
1852 ever
1853 never
1854 ZZ
1855 hers
1856 i'd
1857 howbeit
1858 i'm
1859 theres
1860 changes
1861 anyhow
1862 would
1863 therefore
1864 is
1865 hereby
1866 must
1867 me
1868 my
1869 indicated
1870 indicates
1871 keep
1872 far
1873 after
1874 hereupon
1875 keeps
1876 every
1877 over
1878 before
1879 better
1880 then
1881 them
1882 they
1883 reasonably
1884 each
1885 went
1886 mean
1887 we'd
1888 rd
1889 re
1890 got
1891 forth
1892 you're
1893 little
1894 whereupon
1895 uses
1896 already
1897 another
1898 took
1899 second
1900 seen
1901 seem
1902 relatively
1903 thoroughly
1904 latter
1905 that
1906 thorough
1907 nobody
1908 definitely
1909 came
1910 saying
1911 specify
1912 do
1913 next
1914 despite
1915 unfortunately
1916 twice
1917 best
1918 said
1919 away
1920 there's
1921 unto
1922 hopefully
1923 seven
1924 we
1925 ltd
1926 here
1927 against
1928 com
1929 ZT
1930 aren't
1931 been
1932 much
1933 concerning
1934 wish
1935 say
1936 near
1937 unlikely
1938 cant
1939 in
1940 ie
1941 if
1942 containing
1943 beside
1944 several
1945 kept
1946 whereby
1947 whoever
1948 the
1949 yours
1950 just
1951 yes
1952 yet
1953 had
1954 has
1955 t's
1956 possible
1957 apart
1958 right
1959 old
1960 somehow
1961 for
1962 everything
1963 asking
1964 who
1965 of
1966 theirs
1967 plus
1968 formerly
1969 down
1970 c's
1971 accordingly
1972 way
1973 was
1974 becoming
1975 tell
1976 sometime
1977 no
1978 whereas
1979 nd
1980 welcome
1981 let's
1982 certainly
1983 a's
1984 did
1985 it'll
1986 says
1987 appear
1988 alone
1989 wherever
1990 example
1991 usually
1992 nowhere
1993 hither
1994 regardless
1995 everybody
1996 thru
1997 everywhere
1998 can
1999 following
2000 want
2001 didn't
2002 may
2003 such
2004 whenever
2005 maybe
2006 ones
2007 so
2008 seeing
2009 indeed
2010 course
2011 still
2012 thank
2013 he's
2014 selves
2015 ours
2016 outside
2017 non
2018 within
2019 thereby
2020 not
2021 now
2022 nor
2023 entirely
2024 eg
2025 ex
2026 et
2027 hadn't
2028 furthermore
2029 looking
2030 seriously
2031 shouldn't
2032 she
2033 quite
2034 besides
2035 think
2036 first
2037 ignored
2038 awfully
2039 given
2040 anyone
2041 indicate
2042 gives
2043 mostly
2044 than
2045 here's
2046 were
2047 and
2048 appreciate
2049 himself
2050 saw
2051 any
2052 downwards
2053 take
2054 sure
2055 especially
2056 later
2057 that's
2058 fifth
2059 don't
2060 aside
2061 only
2062 going
2063 get
2064 truly
2065 cannot
2066 nearly
2067 regarding
2068 us
2069 where
2070 up
2071 namely
2072 anyways
2073 wonder
2074 behind
2075 between
2076 it
2077 across
2078 come
2079 many
2080 whereafter
2081 according
2082 comes
2083 afterwards
2084 couldn't
2085 moreover
2086 considering
2087 sensible
2088 hardly
2089 wants
2090 former
2091 those
2092 these
2093  [
2094 somebody
2095 different
2096 etc
2097 insofar
2098 same
2099 without
2100 can't
2101 very
2102 you've
2103 among
2104 being
2105 we've
2106 seems
2107 around
2108 using
2109 specified
2110 on
2111 ok
2112 oh
2113 whence
2114 it's
2115 or
2116 everyone
2117 your
2118 her
2119 there
2120 amongst
2121 trying
2122 with
2123 they're
2124 wasn't
2125 gone
2126 certain
2127 am
2128 an
2129 as
2130 at
2131 again
2132 serious
2133 hello
2134 since
2135 consider
2136 causes
2137 to
2138 th
2139 myself
2140 i'll
2141 zero
2142 further
2143 what
2144 brief
2145 seemed
2146 c'mon
2147 allows
2148 followed
2149 ask
2150 viz
2151 contains
2152 two
2153 taken
2154 more
2155 knows
2156 ain't
2157 particular
2158 known
2159 none
2160 nine
2161 needs
2162 rather
2163 [
2164 okay
2165 tried
2166 tries
2167 onto
2168 perhaps
2169 specifying
2170  ]
2171 help
2172 soon
2173 through
2174 its
2175 seeming
2176 inward
2177 actually
2178 might
2179 haven't
2180 someone
2181 hereafter
2182 always
2183 isn't
2184 beyond
2185 really
2186 they'll
2187 enough
2188 thereafter
2189 done
2190 together
2191 least
2192 too
2193 immediate
2194 believe
2195 gotten
2196 toward
2197 self
2198 also
2199 towards
2200 most
2201 nothing
2202 they'd
2203 sometimes
2204 lest
2205 particularly
2206 somewhat
2207 his
2208 goes
2209 meanwhile
2210 during
2211 him
2212 greetings
2213 see
2214 are
2215 currently
2216 please
2217 various
2218 probably
2219 available
2220 both
2221 last
2222 wouldn't
2223 became
2224 whole
2225 liked
2226 whatever
2227 except
2228 throughout
2229 along
2230 described
2231 though
2232 whom
2233 beforehand
2234 what's
2235 new
2236 else
2237 look
2238 while
2239 herein
2240 itself
2241 wherein
2242 used
2243 anybody
2244 obviously
2245 thats
2246 from
2247 useful
2248 merely
2249 follows
2250 often
2251 some
2252 ourselves
2253 shall
2254 per
2255 tends
2256 either
2257 be
2258 by
2259 anything
2260 consequently
2261 into
2262 appropriate
2263 we're
2264 elsewhere
2265 hasn't
2266 un
2267 noone
2268 associated
2269 thanks
2270 having
2271 once
2272 edu
2273 go
2274 sent
2275 provides
2276 yourselves
2277 they've
2278 try
2279 this
2280 you'd
2281 yourself
2282 zz
2283 zt
2284 respectively
2285 let
2286 others
2287 until
2288 weren't
2289 use
2290 few
2291 themselves
2292 becomes
2293 anywhere
2294 something
2295 six
2296 allow
2297 won't
2298 thence
2299 willing
2300 instead
2301 whither
2302 doing
2303 how
2304 cause
2305 thereupon
2306 que
2307 via
2308 could
2309 hence
2310 third
2311 doesn't
2312 their
2313 exactly
2314 regards
2315 herself
2316 have
2317 need
2318 clearly
2319 i've
2320 able
2321 which
2322 unless
2323 where's
2324 eight
2325 why
2326 you'll
2327 normally
2328 anyway
2329 one
2330 should
2331 mainly
2332 overall
2333 qv
2334 contain
2335 looks
2336 neither
2337 however
2338 otherwise
2339 co
2340 it'd
2341 corresponding
2342 thanx
2343 novel
2344 value
2345 will
2346 almost
2347 thus
2348 vs
2349 when
2350 gets
2351 upon
2352 off
2353 nevertheless
2354 well
2355 less
2356 presumably
2357 ought
2358 who's
2359 five
2360 know
2361 you
2362 name
2363 necessary
2364 like
2365 become
2366 therein
2367 because
2368 happens
2369 does
2370 although
2371 about
2372 getting
2373 own
2374 three
2375 inasmuch
2376 inner
2377 but
2378 hi
2379 he
2380 whether
2381 placed
2382 below
2383 our
2384 上去--
2385 inc
2386 lately
2387 other
2388 latterly
2389 out
2390 是什么
2391 什么时候
2392 是什么意思
2393 什么意思
2394 多少钱
2395 有没有
2396 更有趣
2397 更有甚者
2398 更有效
2399 更有意义
2400 更远的
2401 更重要的是
2402 正确
2403 错误
2404 第二把
2405 第二波
2406 第二大节
2407 第二单元
2408 第二关
2409 第二行
2410 第二集
2411 第二讲
2412 第二款
2413 第二类
2414 第二盘
2415 第二任
2416 第二声
2417 第二十
2418 第二首
2419 第二项
2420 第三遍
2421 第三册
2422 第三层
2423 第三产业
2424 第三大
2425 第三单元
2426 第三行
2427 第三回
2428 第三集
2429 第三件
2430 第三句
2431 第三卷
2432 第三课
2433 第三类
2434 第三篇
2435 第三期
2436 第三日
2437 第三声
2438 地三鲜
2439 第三项
2440 第三站
2441 第三张
2442 第十八
2443 第十次
2444 第十二
2445 的士高
2446 第十集
2447 第十届
2448 第十九
2449 第十六
2450 第十名
2451 第十三
2452 第十四
2453 第十天
2454 第十一
2455 第十一个
2456 第四版
2457 第四册
2458 第四场
2459 第四代
2460 第四单元
2461 第四集
2462 第四届
2463 第四年
2464 第四期
2465 第四声
2466 第四套
2467 第四位
2468 第四张
2469 第四者
2470 第四种
2471 第五部
2472 第五大道
2473 第五单元
2474 第五集
2475 第五卷
2476 第五课
2477 第五年
2478 第五期
2479 第五位
2480 第五元素
2481 第五组
2482 召唤
2483 最后一班
2484 最后一遍
2485 最后一关
2486 最后一集
2487 最后一科
2488 最后一颗子弹
2489 最后一派
2490 最后一题
2491 最后一眼
2492 最后一页
2493 10
2494 11
2495 12
2496 35
2497 25
2498 2016
2499 2015
2500 又为什么
2501 有问题吗
2502 有问题么
2503 又喜欢
2504 有喜欢
2505 又小
2506 又笑
2507 有笑
2508 有效地
2509 有一百
2510 又一遍
2511 有一部
2512 又一城
2513 又一村
2514 有一道
2515 有意的
2516 有一堆
2517 有一对
2518 有一方
2519 有一根
2520 有一会了
2521 有一批
2522 有一片
2523 有一期
2524 有一起
2525 有一群
2526 又又
2527 由由
2528 财新网
2529 上午
2530 下午
2531 NULL
2532 新华社
2533 消息
2534 13
2535 14
2536 15
2537 16
2538 17
2539 18
2540 19
2541 20
2542 21
2543 22
2544 23
2545 24
2546 26
2547 27
2548 28
2549 29
2550 30
2551 31
2552 32
2553 33
2554 34
2555 36
2556 37
2557 38
2558 39
2559 40
2560 41
2561 42
2562 43
2563 44
2564 45
2565 46
2566 47
2567 48
2568 49
2569 50
2570 51
2571 52
2572 53
2573 54
2574 55
2575 56
2576 57
2577 58
2578 59
2579 60
2580 61
2581 62
2582 63
2583 64
2584 65
2585 66
2586 67
2587 68
2588 69
2589 70
2590 71
2591 72
2592 73
2593 74
2594 75
2595 76
2596 77
2597 78
2598 79
2599 80
2600 81
2601 82
2602 83
2603 84
2604 85
2605 86
2606 87
2607 88
2608 89
2609 90
2610 91
2611 92
2612 93
2613 94
2614 95
2615 96
2616 97
2617 98
2618 99
2619 100
2620 01
2621 02
2622 03
2623 04
2624 05
2625 06
2626 07
2627 08
2628 09
2629 若果 
2630 p
2631 男子
2632 女子
2633 ?2015
2634 2017
2635 2018
2636 2019
2637 2020
2638 2021
2639 2022
2640 2023
2641 嗳.数
2642 .日
2643 [①①]
2644 [①②]
2645 [①③]
2646 [①④]
2647 [①⑤]
2648 [①⑥]
2649 [①⑦]
2650 [①⑧]
2651 [①⑨]
2652 [①A]
2653 [①B]
2654 [①C]
2655 [①D]
2656 [①E]
2657 [①]
2658 [①a]
2659 [①c]
2660 [①d]
2661 [①e]
2662 [①f]
2663 [①g]
2664 [①h]
2665 [①i]
2666 [①o]
2667 [②
2668 [②①]
2669 [②②]
2670 [②③]
2671 [②④
2672 [②⑤]
2673 [②⑥]
2674 [②⑦]
2675 [②⑧]
2676 [②⑩]
2677 [②B]
2678 [②G]
2679 [②]
2680 [②a]
2681 [②b]
2682 [②c]
2683 [②d]
2684 [②e]
2685 [②f]
2686 [②g]
2687 [②h]
2688 [②i]
2689 [②j]
2690 [③①]
2691 [③⑩]
2692 [③F]
2693 [③]
2694 [③a]
2695 [③b]
2696 [③c]
2697 [③d]
2698 [③e]
2699 [③g]
2700 [③h]
2701 [④]
2702 [④a]
2703 [④b]
2704 [④c]
2705 [④d]
2706 [④e]
2707 [⑤]
2708 [⑤]]
2709 [⑤a]
2710 [⑤b]
2711 [⑤d]
2712 [⑤e]
2713 [⑤f]
2714 [⑥]
2715 [⑦]
2716 [⑧]
2717 [⑨]
2718 [⑩]
2719 ¥℃ 
2720 . 
2721 -- 
2722 ,也 
2723 [②B] 
2724 1. 
2725 -- 
2726 ’‘ 
2727 ××× 
2728 0:2 
2729 [②c] 
2730 ∈[ 
2731 ]∧′=[ 
2732 .日 
2733 5:0  
2734 [⑨] 
2735 ? 
2736 × 
2737 exp 
2738 Lex 
2739 ≈ 
2740 ㈧ 
2741 ?———
2742 。。。
2743 约
2744 下一页
2745 上一页
2746 。。。。。。
2747 ??
2748 ?
2749 2010
txt

 

 1 import os
 2 from pyhanlp.static import STATIC_ROOT, HANLP_JAR_PATH
 3 from pyhanlp import *
 4 def load_from_file(path):
 5     """
 6     从词典文件加载DoubleArrayTrie
 7     :param path: 词典路径
 8     :return: 双数组trie树
 9     """
10     map = JClass('java.util.TreeMap')()  # 创建TreeMap实例
11     with open(path) as src:
12         for word in src:
13             word = word.strip()  # 去掉Python读入的\n
14             map[word] = word
15     return JClass('com.hankcs.hanlp.collection.trie.DoubleArrayTrie')(map)
16 
17 ## 去掉停用词
18 def remove_stopwords_termlist(termlist, trie):
19     return [term.word for term in termlist if not trie.containsKey(term.word)]
20 
21 
22 trie = load_from_file('stopwords.txt')
23 termlist = HanLP.segment("江西鄱阳湖干枯了,中国最大的淡水湖变成了大草原")
24 print('去掉停用词前:', termlist)
25 
26 print('去掉停用词后:', remove_stopwords_termlist(termlist, trie))
停用词代码

聚类:

 1 from pyhanlp import *
 2 
 3 ClusterAnalyzer = JClass('com.hankcs.hanlp.mining.cluster.ClusterAnalyzer')
 4 
 5 if __name__ == '__main__':
 6     analyzer = ClusterAnalyzer()
 7     analyzer.addDocument("赵一", "流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 蓝调, 蓝调, 蓝调, 蓝调, 蓝调, 蓝调, 摇滚, 摇滚, 摇滚, 摇滚")
 8     analyzer.addDocument("钱二", "爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲")
 9     analyzer.addDocument("张三", "古典, 古典, 古典, 古典, 民谣, 民谣, 民谣, 民谣")
10     analyzer.addDocument("李四", "爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 金属, 金属, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲")
11     analyzer.addDocument("王五", "流行, 流行, 流行, 流行, 摇滚, 摇滚, 摇滚, 嘻哈, 嘻哈, 嘻哈")
12     analyzer.addDocument("马六", "古典, 古典, 古典, 古典, 古典, 古典, 古典, 古典, 摇滚")
13 
14     print(analyzer.repeatedBisection(1))    # 重复二分聚类
15     print(analyzer.repeatedBisection(1.0))  # 自动判断聚类数量k

 

标签:term,Handle,word,hanlp,import,print,提取,切词,com
来源: https://www.cnblogs.com/smartisn/p/12555981.html