相似度分析
作者:互联网
# -*- coding: utf-8 -*-
# @Time : 2021/10/11 23:19
# @Author : DaWeiGuo
# @File : xiangsidu.py
# @Software: PyCharm
# -*- coding: utf-8 -*-
import jieba
import numpy as np
#去除停用词
def out_stopword(seg:list):
"""
:param seg 用jieba分完词的列表
"""
# print("去停用词:\n")
wordlist = []
#获取停用词表
stop = open(r"C:\Users\l1768\Desktop\code\Gitclone\stopwords\hit_stopwords.txt", 'r+', encoding='utf-8')
#用‘\n’去分隔读取,返回一个一维数组
stopword = stop.read().split("\n")
#遍历分词表
for key in seg:
#print(key)
#去除停用词,去除单字,去除重复词
if not(key.strip() in stopword) and (len(key.strip()) > 1) and not(key.strip() in wordlist):
wordlist.append(key)
# print(key)
#停用词去除END
stop.close()
return wordlist
def get_word_vector(s1, s2):
"""
:param s1: 句子1
:param s2: 句子2
:return: 返回句子的余弦相似度
"""
# 分词
cut1 = jieba.cut(s1)
cut2 = jieba.cut(s2)
list_word1 = out_stopword((','.join(cut1)).split(','))
list_word2 = out_stopword((','.join(cut2)).split(','))
print('=============== 分词结果: ===============')
print(list_word1)
print(list_word2)
# 列出所有的词,取并集
key_word = list(set(list_word1 + list_word2))
print("=============== 分词向量对应位上的词语: ===============")
print(key_word)
# 给定形状和类型的用0填充的矩阵存储向量
word_vector1 = np.zeros(len(key_word))
word_vector2 = np.zeros(len(key_word))
# 计算词频
# 依次确定向量的每个位置的值
for i in range(len(key_word)):
# 遍历key_word中每个词在句子中的出现次数
for j in range(len(list_word1)):
if key_word[i] == list_word1[j]:
word_vector1[i] += 1
for k in range(len(list_word2)):
if key_word[i] == list_word2[k]:
word_vector2[i] += 1
# 输出向量
print(word_vector1)
print(word_vector2)
return word_vector1, word_vector2
def cos_dist(vec1, vec2):
"""
:param vec1: 向量1
:param vec2: 向量2
:return: 返回两个向量的余弦相似度
"""
dist1 = float(np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2)))
return dist1
if __name__ == '__main__':
s = ['伴随着金融科技的发展,银行物理网点关停量仍在持续增加。与此同时,商业银行在推进数字化转型方面成效显著,特别是今年以来多数银行加大了对于区块链、数字人民币等前瞻科技领域的布局。',
'作为国家重要的能源基地,鄂尔多斯市积极落实增产保供、协议保供、应急保供、安全保供各项措施,在保证安全的前提下应产尽产、能产多产,全力推动煤炭增产、保供、稳价,确保经济发展不受限、人民群众过暖冬,为保障全国煤炭供应作贡献。',
'下半场广东仍然没有回暖迹象,他们第三节4分钟里没能得分,节末更是被对手连续抢断打成反击,随着第四节初黎璋霖和张宁的两记三分进球,山西将领先优势拉大至20分以上早早锁定胜局。',
'上轮绝杀的兴奋劲儿还没完全过去,国足全队已抵达沙特吉达,备战第四轮的比赛。此役将是国足首次在有观众的赛场参加12强赛,对手又是此前三战皆胜的沙特队,比赛的难度可想而知。但赛程如此国足自然也没有退路,全队希望延续上场的好运,在这个客场能够有所收获。',
'而回顾中国影视票房榜单目前前五名之中,《唐人街探案3》以45亿元的票房成绩排列第五,照《长津湖》目前已打破41亿元的票房速度,预估《唐人街探案3》不久后就将被挤出票房前五名。',
'TVB两届视帝王浩信近年事业发展得顺风顺水,好作品一部接一部,成为网民热议的对象。不过在感情方面似乎就非常不顺利,早前更是传出他与结婚十年的妻子陈自瑶已经离婚。']
for i in range(0, len(s) - 1):
for j in range(i + 1, len(s)):
print('【', s[i][:5]+'...'+s[i][-5:], ' 】和【 ', s[j][:5]+'...'+s[j][-5:], "】句子的比较结果:")
vec1, vec2 = get_word_vector(s[i], s[j])
dist1 = cos_dist(vec1, vec2)
print("相似度: " + str(dist1))
print("###########################################################")
【 伴随着金融...域的布局。 】和【 作为国家重...应作贡献。 】句子的比较结果:
=============== 分词结果: ===============
['伴随', '金融', '科技', '发展', '银行', '物理', '网点', '关停', '持续', '增加', '商业银行', '推进', '数字化', '转型', '方面', '成效显著', '特别', '今年以来', '多数', '加大', '区块', '数字', '人民币', '前瞻', '科技领域', '布局']
['国家', '重要', '能源', '基地', '鄂尔多斯市', '积极', '落实', '增产', '保供', '协议', '应急', '安全', '各项措施', '保证', '前提', '下应产', '尽产', '能产', '多产', '全力', '推动', '煤炭', '稳价', '确保', '经济', '发展', '受限', '人民', '群众', '暖冬', '保障', '全国', '供应', '作贡献']
=============== 分词向量对应位上的词语: ===============
['网点', '稳价', '人民', '受限', '数字化', '供应', '伴随', '关停', '应急', '持续', '鄂尔多斯市', '群众', '前瞻', '作贡献', '转型', '增产', '多产', '煤炭', '金融', '人民币', '国家', '加大', '能源', '多数', '全力', '经济', '积极', '全国', '科技', '落实', '成效显著', '保供', '商业银行', '尽产', '协议', '各项措施', '物理', '今年以来', '方面', '安全', '数字', '保障', '保证', '银行', '区块', '暖冬', '推进', '布局', '前提', '确保', '特别', '推动', '科技领域', '发展', '基地', '能产', '重要', '下应产', '增加']
[1. 0. 0. 0. 1. 0. 1. 1. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 1. 0. 1.
0. 0. 0. 0. 1. 0. 1. 0. 1. 0. 0. 0. 1. 1. 1. 0. 1. 0. 0. 1. 1. 0. 1. 1.
0. 0. 1. 0. 1. 1. 0. 0. 0. 0. 1.]
[0. 1. 1. 1. 0. 1. 0. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 0. 1. 0. 1. 0.
1. 1. 1. 1. 0. 1. 0. 1. 0. 1. 1. 1. 0. 0. 0. 1. 0. 1. 1. 0. 0. 1. 0. 0.
1. 1. 0. 1. 0. 1. 1. 1. 1. 1. 0.]
相似度: 0.03363363969981562
###########################################################
【 伴随着金融...域的布局。 】和【 下半场广东...锁定胜局。 】句子的比较结果:
=============== 分词结果: ===============
['伴随', '金融', '科技', '发展', '银行', '物理', '网点', '关停', '持续', '增加', '商业银行', '推进', '数字化', '转型', '方面', '成效显著', '特别', '今年以来', '多数', '加大', '区块', '数字', '人民币', '前瞻', '科技领域', '布局']
['下半场', '广东', '仍然', '没有', '回暖', '迹象', '第三节', '分钟', '没能', '得分', '节末', '更是', '对手', '连续', '抢断', '打成', '反击', '第四节', '初黎璋霖', '张宁', '两记', '三分', '进球', '山西', '领先', '优势', '拉大', '20', '以上', '早早', '锁定', '胜局']
=============== 分词向量对应位上的词语: ===============
['网点', '数字化', '伴随', '关停', '没有', '迹象', '初黎璋霖', '持续', '拉大', '前瞻', '转型', '没能', '对手', '金融', '第四节', '人民币', '加大', '下半场', '多数', '胜局', '早早', '更是', '科技', '成效显著', '商业银行', '仍然', '连续', '反击', '20', '物理', '第三节', '两记', '今年以来', '领先', '方面', '数字', '分钟', '节末', '回暖', '广东', '银行', '区块', '三分', '得分', '张宁', '推进', '布局', '进球', '特别', '锁定', '以上', '科技领域', '发展', '打成', '抢断', '优势', '增加', '山西']
[1. 1. 1. 1. 0. 0. 0. 1. 0. 1. 1. 0. 0. 1. 0. 1. 1. 0. 1. 0. 0. 0. 1. 1.
1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 1. 0.
1. 0. 0. 1. 1. 0. 0. 0. 1. 0.]
[0. 0. 0. 0. 1. 1. 1. 0. 1. 0. 0. 1. 1. 0. 1. 0. 0. 1. 0. 1. 1. 1. 0. 0.
0. 1. 1. 1. 1. 0. 1. 1. 0. 1. 0. 0. 1. 1. 1. 1. 0. 0. 1. 1. 1. 0. 0. 1.
0. 1. 1. 0. 0. 1. 1. 1. 0. 1.]
相似度: 0.0
###########################################################
【 伴随着金融...域的布局。 】和【 上轮绝杀的...有所收获。 】句子的比较结果:
=============== 分词结果: ===============
['伴随', '金融', '科技', '发展', '银行', '物理', '网点', '关停', '持续', '增加', '商业银行', '推进', '数字化', '转型', '方面', '成效显著', '特别', '今年以来', '多数', '加大', '区块', '数字', '人民币', '前瞻', '科技领域', '布局']
['上轮', '绝杀', '兴奋', '劲儿', '完全', '过去', '全队', '抵达', '沙特', '吉达', '备战', '第四轮', '比赛', '此役', '国足', '首次', '观众', '赛场', '参加', '12', '强赛', '对手', '此前', '战皆胜', '沙特队', '难度', '可想而知', '赛程', '自然', '没有', '退路', '希望', '延续', '上场', '好运', '客场', '能够', '有所', '收获']
=============== 分词向量对应位上的词语: ===============
['网点', '兴奋', '数字化', '客场', '伴随', '关停', '有所', '没有', '过去', '持续', '抵达', '赛程', '前瞻', '劲儿', '转型', '首次', '12', '对手', '金融', '比赛', '人民币', '可想而知', '退路', '加大', '沙特队', '上场', '参加', '多数', '自然', '上轮', '全队', '备战', '强赛', '科技', '国足', '成效显著', '商业银行', '物理', '此前', '今年以来', '难度', '方面', '数字', '希望', '延续', '银行', '区块', '推进', '布局', '绝杀', '完全', '特别', '吉达', '战皆胜', '科技领域', '发展', '沙特', '此役', '观众', '收获', '好运', '能够', '第四轮', '赛场', '增加']
[1. 0. 1. 0. 1. 1. 0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1.
0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 0. 1. 1. 1.
1. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
[0. 1. 0. 1. 0. 0. 1. 1. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 1. 0. 1. 1. 0.
1. 1. 1. 0. 1. 1. 1. 1. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 1. 0. 0. 0.
0. 1. 1. 0. 1. 1. 0. 0. 1. 1. 1. 1. 1. 1. 1. 1. 0.]
相似度: 0.0
###########################################################
【 伴随着金融...域的布局。 】和【 而回顾中国...房前五名。 】句子的比较结果:
=============== 分词结果: ===============
['伴随', '金融', '科技', '发展', '银行', '物理', '网点', '关停', '持续', '增加', '商业银行', '推进', '数字化', '转型', '方面', '成效显著', '特别', '今年以来', '多数', '加大', '区块', '数字', '人民币', '前瞻', '科技领域', '布局']
['回顾', '中国', '影视', '票房榜', '目前', '五名', '之中', '唐人街', '探案', '45', '亿元', '票房', '成绩', '排列', '第五', '长津湖', '打破', '41', '速度', '预估', '不久', '挤出']
=============== 分词向量对应位上的词语: ===============
['网点', '数字化', '伴随', '关停', '中国', '票房榜', '回顾', '持续', '速度', '前瞻', '转型', '预估', '金融', '五名', '人民币', '票房', '长津湖', '加大', '影视', '排列', '不久', '多数', '唐人街', '目前', '科技', '45', '成效显著', '商业银行', '物理', '探案', '今年以来', '方面', '数字', '挤出', '银行', '区块', '推进', '布局', '亿元', '第五', '特别', '之中', '科技领域', '发展', '41', '成绩', '打破', '增加']
[1. 1. 1. 1. 0. 0. 0. 1. 0. 1. 1. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 1. 0. 0.
1. 0. 1. 1. 1. 0. 1. 1. 1. 0. 1. 1. 1. 1. 0. 0. 1. 0. 1. 1. 0. 0. 0. 1.]
[0. 0. 0. 0. 1. 1. 1. 0. 1. 0. 0. 1. 0. 1. 0. 1. 1. 0. 1. 1. 1. 0. 1. 1.
0. 1. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 1. 1. 0. 1. 0. 0. 1. 1. 1. 0.]
相似度: 0.0
###########################################################
【 伴随着金融...域的布局。 】和【 TVB两届...已经离婚。 】句子的比较结果:
=============== 分词结果: ===============
['伴随', '金融', '科技', '发展', '银行', '物理', '网点', '关停', '持续', '增加', '商业银行', '推进', '数字化', '转型', '方面', '成效显著', '特别', '今年以来', '多数', '加大', '区块', '数字', '人民币', '前瞻', '科技领域', '布局']
['TVB', '两届', '帝王', '浩信', '近年', '事业', '发展', '顺风', '顺水', '作品', '一部', '成为', '网民', '热议', '对象', '感情', '方面', '似乎', '非常', '顺利', '早前', '更是', '传出', '结婚', '十年', '妻子', '陈自瑶', '已经', '离婚']
=============== 分词向量对应位上的词语: ===============
['网点', '数字化', '伴随', '关停', '陈自瑶', '顺水', '持续', '近年', '前瞻', '两届', '转型', '早前', '金融', '人民币', '似乎', '网民', '热议', '加大', '多数', '十年', '浩信', '妻子', '更是', '科技', '离婚', '成效显著', '商业银行', '物理', 'TVB', '今年以来', '方面', '数字', '对象', '银行', '区块', '感情', '推进', '布局', '成为', '特别', '作品', '顺风', '结婚', '事业', '科技领域', '发展', '传出', '帝王', '顺利', '非常', '已经', '增加', '一部']
[1. 1. 1. 1. 0. 0. 1. 0. 1. 0. 1. 0. 1. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1.
0. 1. 1. 1. 0. 1. 1. 1. 0. 1. 1. 0. 1. 1. 0. 1. 0. 0. 0. 0. 1. 1. 0. 0.
0. 0. 0. 1. 0.]
[0. 0. 0. 0. 1. 1. 0. 1. 0. 1. 0. 1. 0. 0. 1. 1. 1. 0. 0. 1. 1. 1. 1. 0.
1. 0. 0. 0. 1. 0. 1. 0. 1. 0. 0. 1. 0. 0. 1. 0. 1. 1. 1. 1. 0. 1. 1. 1.
1. 1. 1. 0. 1.]
相似度: 0.07283570407292297
###########################################################
【 作为国家重...应作贡献。 】和【 下半场广东...锁定胜局。 】句子的比较结果:
=============== 分词结果: ===============
['国家', '重要', '能源', '基地', '鄂尔多斯市', '积极', '落实', '增产', '保供', '协议', '应急', '安全', '各项措施', '保证', '前提', '下应产', '尽产', '能产', '多产', '全力', '推动', '煤炭', '稳价', '确保', '经济', '发展', '受限', '人民', '群众', '暖冬', '保障', '全国', '供应', '作贡献']
['下半场', '广东', '仍然', '没有', '回暖', '迹象', '第三节', '分钟', '没能', '得分', '节末', '更是', '对手', '连续', '抢断', '打成', '反击', '第四节', '初黎璋霖', '张宁', '两记', '三分', '进球', '山西', '领先', '优势', '拉大', '20', '以上', '早早', '锁定', '胜局']
=============== 分词向量对应位上的词语: ===============
['稳价', '人民', '受限', '供应', '应急', '没有', '迹象', '初黎璋霖', '鄂尔多斯市', '群众', '拉大', '作贡献', '没能', '多产', '增产', '煤炭', '对手', '第四节', '国家', '能源', '全力', '下半场', '经济', '积极', '全国', '胜局', '早早', '更是', '落实', '尽产', '保供', '仍然', '协议', '连续', '各项措施', '反击', '20', '第三节', '两记', '领先', '安全', '分钟', '节末', '保障', '回暖', '保证', '广东', '三分', '得分', '暖冬', '张宁', '进球', '前提', '确保', '锁定', '以上', '推动', '能产', '发展', '基地', '打成', '抢断', '重要', '优势', '下应产', '山西']
[1. 1. 1. 1. 1. 0. 0. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 0. 1. 1. 1. 0. 1. 1.
1. 0. 0. 0. 1. 1. 1. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0.
0. 1. 0. 0. 1. 1. 0. 0. 1. 1. 1. 1. 0. 0. 1. 0. 1. 0.]
[0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0.
0. 1. 1. 1. 0. 0. 0. 1. 0. 1. 0. 1. 1. 1. 1. 1. 0. 1. 1. 0. 1. 0. 1. 1.
1. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 1. 0. 1.]
相似度: 0.0
###########################################################
【 作为国家重...应作贡献。 】和【 上轮绝杀的...有所收获。 】句子的比较结果:
=============== 分词结果: ===============
['国家', '重要', '能源', '基地', '鄂尔多斯市', '积极', '落实', '增产', '保供', '协议', '应急', '安全', '各项措施', '保证', '前提', '下应产', '尽产', '能产', '多产', '全力', '推动', '煤炭', '稳价', '确保', '经济', '发展', '受限', '人民', '群众', '暖冬', '保障', '全国', '供应', '作贡献']
['上轮', '绝杀', '兴奋', '劲儿', '完全', '过去', '全队', '抵达', '沙特', '吉达', '备战', '第四轮', '比赛', '此役', '国足', '首次', '观众', '赛场', '参加', '12', '强赛', '对手', '此前', '战皆胜', '沙特队', '难度', '可想而知', '赛程', '自然', '没有', '退路', '希望', '延续', '上场', '好运', '客场', '能够', '有所', '收获']
=============== 分词向量对应位上的词语: ===============
['稳价', '人民', '兴奋', '受限', '供应', '客场', '应急', '有所', '没有', '过去', '鄂尔多斯市', '群众', '抵达', '赛程', '作贡献', '劲儿', '12', '首次', '多产', '增产', '煤炭', '对手', '比赛', '可想而知', '国家', '退路', '沙特队', '上场', '参加', '能源', '全力', '自然', '经济', '积极', '全国', '上轮', '全队', '备战', '强赛', '国足', '落实', '尽产', '保供', '协议', '各项措施', '此前', '难度', '安全', '希望', '保障', '延续', '保证', '暖冬', '绝杀', '完全', '前提', '确保', '吉达', '战皆胜', '推动', '能产', '发展', '基地', '沙特', '此役', '观众', '收获', '好运', '能够', '重要', '下应产', '第四轮', '赛场']
[1. 1. 0. 1. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0. 1. 1. 1. 0. 0. 0.
1. 0. 0. 0. 0. 1. 1. 0. 1. 1. 1. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 1.
0. 1. 0. 1. 1. 0. 0. 1. 1. 0. 0. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 1. 1. 0.
0.]
[0. 0. 1. 0. 0. 1. 0. 1. 1. 1. 0. 0. 1. 1. 0. 1. 1. 1. 0. 0. 0. 1. 1. 1.
0. 1. 1. 1. 1. 0. 0. 1. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 1. 1. 0.
1. 0. 1. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 1. 1. 1. 1. 0. 0. 1.
1.]
相似度: 0.0
###########################################################
【 作为国家重...应作贡献。 】和【 而回顾中国...房前五名。 】句子的比较结果:
=============== 分词结果: ===============
['国家', '重要', '能源', '基地', '鄂尔多斯市', '积极', '落实', '增产', '保供', '协议', '应急', '安全', '各项措施', '保证', '前提', '下应产', '尽产', '能产', '多产', '全力', '推动', '煤炭', '稳价', '确保', '经济', '发展', '受限', '人民', '群众', '暖冬', '保障', '全国', '供应', '作贡献']
['回顾', '中国', '影视', '票房榜', '目前', '五名', '之中', '唐人街', '探案', '45', '亿元', '票房', '成绩', '排列', '第五', '长津湖', '打破', '41', '速度', '预估', '不久', '挤出']
=============== 分词向量对应位上的词语: ===============
['稳价', '人民', '受限', '供应', '应急', '中国', '票房榜', '回顾', '鄂尔多斯市', '群众', '速度', '作贡献', '预估', '多产', '增产', '煤炭', '五名', '票房', '国家', '长津湖', '影视', '排列', '能源', '全力', '不久', '经济', '积极', '全国', '唐人街', '目前', '45', '落实', '尽产', '保供', '协议', '各项措施', '探案', '安全', '保障', '挤出', '保证', '暖冬', '亿元', '前提', '确保', '第五', '之中', '推动', '能产', '发展', '基地', '41', '成绩', '打破', '重要', '下应产']
[1. 1. 1. 1. 1. 0. 0. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 0. 1. 0. 0. 0. 1. 1.
0. 1. 1. 1. 0. 0. 0. 1. 1. 1. 1. 1. 0. 1. 1. 0. 1. 1. 0. 1. 1. 0. 0. 1.
1. 1. 1. 0. 0. 0. 1. 1.]
[0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 1. 1. 1. 0. 0.
1. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 0.
0. 0. 0. 1. 1. 1. 0. 0.]
相似度: 0.0
###########################################################
【 作为国家重...应作贡献。 】和【 TVB两届...已经离婚。 】句子的比较结果:
=============== 分词结果: ===============
['国家', '重要', '能源', '基地', '鄂尔多斯市', '积极', '落实', '增产', '保供', '协议', '应急', '安全', '各项措施', '保证', '前提', '下应产', '尽产', '能产', '多产', '全力', '推动', '煤炭', '稳价', '确保', '经济', '发展', '受限', '人民', '群众', '暖冬', '保障', '全国', '供应', '作贡献']
['TVB', '两届', '帝王', '浩信', '近年', '事业', '发展', '顺风', '顺水', '作品', '一部', '成为', '网民', '热议', '对象', '感情', '方面', '似乎', '非常', '顺利', '早前', '更是', '传出', '结婚', '十年', '妻子', '陈自瑶', '已经', '离婚']
=============== 分词向量对应位上的词语: ===============
['稳价', '人民', '受限', '供应', '陈自瑶', '应急', '顺水', '鄂尔多斯市', '群众', '近年', '作贡献', '两届', '多产', '增产', '煤炭', '早前', '似乎', '网民', '国家', '热议', '能源', '全力', '十年', '经济', '积极', '全国', '浩信', '妻子', '更是', '离婚', '落实', '尽产', '保供', '协议', '各项措施', 'TVB', '方面', '安全', '保障', '对象', '保证', '感情', '暖冬', '前提', '确保', '成为', '作品', '顺风', '结婚', '事业', '推动', '能产', '发展', '基地', '传出', '帝王', '重要', '顺利', '下应产', '非常', '已经', '一部']
[1. 1. 1. 1. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 0. 0. 1. 0. 1. 1. 0. 1.
1. 1. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 0. 0.
0. 0. 1. 1. 1. 1. 0. 0. 1. 0. 1. 0. 0. 0.]
[0. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 1. 0. 1. 0. 0. 1. 0.
0. 0. 1. 1. 1. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 1.
1. 1. 0. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1.]
相似度: 0.0318464877649241
###########################################################
【 下半场广东...锁定胜局。 】和【 上轮绝杀的...有所收获。 】句子的比较结果:
=============== 分词结果: ===============
['下半场', '广东', '仍然', '没有', '回暖', '迹象', '第三节', '分钟', '没能', '得分', '节末', '更是', '对手', '连续', '抢断', '打成', '反击', '第四节', '初黎璋霖', '张宁', '两记', '三分', '进球', '山西', '领先', '优势', '拉大', '20', '以上', '早早', '锁定', '胜局']
['上轮', '绝杀', '兴奋', '劲儿', '完全', '过去', '全队', '抵达', '沙特', '吉达', '备战', '第四轮', '比赛', '此役', '国足', '首次', '观众', '赛场', '参加', '12', '强赛', '对手', '此前', '战皆胜', '沙特队', '难度', '可想而知', '赛程', '自然', '没有', '退路', '希望', '延续', '上场', '好运', '客场', '能够', '有所', '收获']
=============== 分词向量对应位上的词语: ===============
['兴奋', '客场', '有所', '没有', '迹象', '过去', '初黎璋霖', '抵达', '赛程', '拉大', '劲儿', '没能', '首次', '对手', '12', '比赛', '第四节', '可想而知', '退路', '沙特队', '上场', '参加', '下半场', '自然', '胜局', '上轮', '全队', '早早', '更是', '备战', '强赛', '国足', '仍然', '连续', '反击', '20', '此前', '第三节', '两记', '领先', '难度', '希望', '分钟', '节末', '回暖', '延续', '广东', '三分', '得分', '张宁', '进球', '绝杀', '完全', '锁定', '吉达', '以上', '战皆胜', '沙特', '打成', '此役', '观众', '好运', '收获', '能够', '抢断', '优势', '第四轮', '赛场', '山西']
[0. 0. 0. 1. 1. 0. 1. 0. 0. 1. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0.
1. 0. 0. 1. 1. 0. 0. 0. 1. 1. 1. 1. 0. 1. 1. 1. 0. 0. 1. 1. 1. 0. 1. 1.
1. 1. 1. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1.]
[1. 1. 1. 1. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 0. 1.
0. 1. 1. 0. 0. 1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0.
0. 0. 0. 1. 1. 0. 1. 0. 1. 1. 0. 1. 1. 1. 1. 1. 0. 0. 1. 1. 0.]
相似度: 0.05661385170722978
###########################################################
【 下半场广东...锁定胜局。 】和【 而回顾中国...房前五名。 】句子的比较结果:
=============== 分词结果: ===============
['下半场', '广东', '仍然', '没有', '回暖', '迹象', '第三节', '分钟', '没能', '得分', '节末', '更是', '对手', '连续', '抢断', '打成', '反击', '第四节', '初黎璋霖', '张宁', '两记', '三分', '进球', '山西', '领先', '优势', '拉大', '20', '以上', '早早', '锁定', '胜局']
['回顾', '中国', '影视', '票房榜', '目前', '五名', '之中', '唐人街', '探案', '45', '亿元', '票房', '成绩', '排列', '第五', '长津湖', '打破', '41', '速度', '预估', '不久', '挤出']
=============== 分词向量对应位上的词语: ===============
['中国', '没有', '迹象', '回顾', '初黎璋霖', '票房榜', '速度', '拉大', '没能', '预估', '对手', '五名', '第四节', '票房', '长津湖', '影视', '排列', '下半场', '不久', '胜局', '唐人街', '早早', '更是', '目前', '45', '仍然', '连续', '反击', '20', '第三节', '两记', '领先', '探案', '分钟', '节末', '回暖', '挤出', '广东', '三分', '得分', '张宁', '进球', '亿元', '第五', '锁定', '以上', '之中', '41', '打成', '成绩', '抢断', '优势', '打破', '山西']
[0. 1. 1. 0. 1. 0. 0. 1. 1. 0. 1. 0. 1. 0. 0. 0. 0. 1. 0. 1. 0. 1. 1. 0.
0. 1. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 0. 1. 1. 1. 1. 1. 0. 0. 1. 1. 0. 0.
1. 0. 1. 1. 0. 1.]
[1. 0. 0. 1. 0. 1. 1. 0. 0. 1. 0. 1. 0. 1. 1. 1. 1. 0. 1. 0. 1. 0. 0. 1.
1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1.
0. 1. 0. 0. 1. 0.]
相似度: 0.0
###########################################################
【 下半场广东...锁定胜局。 】和【 TVB两届...已经离婚。 】句子的比较结果:
=============== 分词结果: ===============
['下半场', '广东', '仍然', '没有', '回暖', '迹象', '第三节', '分钟', '没能', '得分', '节末', '更是', '对手', '连续', '抢断', '打成', '反击', '第四节', '初黎璋霖', '张宁', '两记', '三分', '进球', '山西', '领先', '优势', '拉大', '20', '以上', '早早', '锁定', '胜局']
['TVB', '两届', '帝王', '浩信', '近年', '事业', '发展', '顺风', '顺水', '作品', '一部', '成为', '网民', '热议', '对象', '感情', '方面', '似乎', '非常', '顺利', '早前', '更是', '传出', '结婚', '十年', '妻子', '陈自瑶', '已经', '离婚']
=============== 分词向量对应位上的词语: ===============
['陈自瑶', '没有', '迹象', '顺水', '初黎璋霖', '近年', '拉大', '两届', '没能', '一部', '对手', '早前', '第四节', '似乎', '网民', '热议', '下半场', '十年', '胜局', '浩信', '妻子', '早早', '更是', '离婚', '仍然', '连续', '反击', '20', '第三节', '两记', '领先', 'TVB', '方面', '分钟', '节末', '回暖', '对象', '广东', '三分', '感情', '得分', '张宁', '进球', '成为', '锁定', '作品', '以上', '顺风', '结婚', '事业', '发展', '打成', '传出', '帝王', '抢断', '优势', '顺利', '非常', '已经', '山西']
[0. 1. 1. 0. 1. 0. 1. 0. 1. 0. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 1. 0.
1. 1. 1. 1. 1. 1. 1. 0. 0. 1. 1. 1. 0. 1. 1. 0. 1. 1. 1. 0. 1. 0. 1. 0.
0. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 1.]
[1. 0. 0. 1. 0. 1. 0. 1. 0. 1. 0. 1. 0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 1. 1.
0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 1.
1. 1. 1. 0. 1. 1. 0. 0. 1. 1. 1. 0.]
相似度: 0.032826608214930636
###########################################################
【 上轮绝杀的...有所收获。 】和【 而回顾中国...房前五名。 】句子的比较结果:
=============== 分词结果: ===============
['上轮', '绝杀', '兴奋', '劲儿', '完全', '过去', '全队', '抵达', '沙特', '吉达', '备战', '第四轮', '比赛', '此役', '国足', '首次', '观众', '赛场', '参加', '12', '强赛', '对手', '此前', '战皆胜', '沙特队', '难度', '可想而知', '赛程', '自然', '没有', '退路', '希望', '延续', '上场', '好运', '客场', '能够', '有所', '收获']
['回顾', '中国', '影视', '票房榜', '目前', '五名', '之中', '唐人街', '探案', '45', '亿元', '票房', '成绩', '排列', '第五', '长津湖', '打破', '41', '速度', '预估', '不久', '挤出']
=============== 分词向量对应位上的词语: ===============
['兴奋', '客场', '有所', '中国', '没有', '过去', '回顾', '票房榜', '抵达', '赛程', '速度', '劲儿', '12', '首次', '对手', '预估', '比赛', '五名', '票房', '可想而知', '退路', '长津湖', '沙特队', '上场', '参加', '影视', '排列', '自然', '不久', '上轮', '唐人街', '全队', '备战', '强赛', '目前', '45', '国足', '此前', '探案', '难度', '希望', '延续', '挤出', '绝杀', '完全', '亿元', '第五', '吉达', '之中', '战皆胜', '沙特', '41', '此役', '观众', '收获', '好运', '能够', '成绩', '打破', '第四轮', '赛场']
[1. 1. 1. 0. 1. 1. 0. 0. 1. 1. 0. 1. 1. 1. 1. 0. 1. 0. 0. 1. 1. 0. 1. 1.
1. 0. 0. 1. 0. 1. 0. 1. 1. 1. 0. 0. 1. 1. 0. 1. 1. 1. 0. 1. 1. 0. 0. 1.
0. 1. 1. 0. 1. 1. 1. 1. 1. 0. 0. 1. 1.]
[0. 0. 0. 1. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0. 1. 1. 0. 0. 1. 0. 0.
0. 1. 1. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0. 1. 0. 0. 1. 1. 0.
1. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0.]
相似度: 0.0
###########################################################
【 上轮绝杀的...有所收获。 】和【 TVB两届...已经离婚。 】句子的比较结果:
=============== 分词结果: ===============
['上轮', '绝杀', '兴奋', '劲儿', '完全', '过去', '全队', '抵达', '沙特', '吉达', '备战', '第四轮', '比赛', '此役', '国足', '首次', '观众', '赛场', '参加', '12', '强赛', '对手', '此前', '战皆胜', '沙特队', '难度', '可想而知', '赛程', '自然', '没有', '退路', '希望', '延续', '上场', '好运', '客场', '能够', '有所', '收获']
['TVB', '两届', '帝王', '浩信', '近年', '事业', '发展', '顺风', '顺水', '作品', '一部', '成为', '网民', '热议', '对象', '感情', '方面', '似乎', '非常', '顺利', '早前', '更是', '传出', '结婚', '十年', '妻子', '陈自瑶', '已经', '离婚']
=============== 分词向量对应位上的词语: ===============
['兴奋', '客场', '陈自瑶', '有所', '没有', '过去', '顺水', '抵达', '赛程', '近年', '劲儿', '两届', '12', '首次', '对手', '早前', '比赛', '似乎', '可想而知', '退路', '网民', '热议', '沙特队', '上场', '参加', '自然', '十年', '上轮', '浩信', '妻子', '全队', '备战', '强赛', '更是', '离婚', '国足', '非常', '此前', 'TVB', '难度', '方面', '希望', '延续', '对象', '感情', '已经', '绝杀', '完全', '成为', '吉达', '作品', '顺风', '结婚', '事业', '战皆胜', '沙特', '发展', '此役', '观众', '收获', '好运', '帝王', '传出', '能够', '顺利', '第四轮', '赛场', '一部']
[1. 1. 0. 1. 1. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 0. 1. 1.
1. 1. 0. 1. 0. 0. 1. 1. 1. 0. 0. 1. 0. 1. 0. 1. 0. 1. 1. 0. 0. 0. 1. 1.
0. 1. 0. 0. 0. 0. 1. 1. 0. 1. 1. 1. 1. 0. 0. 1. 0. 1. 1. 0.]
[0. 0. 1. 0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 1. 0. 0.
0. 0. 1. 0. 1. 1. 0. 0. 0. 1. 1. 0. 1. 0. 1. 0. 1. 0. 0. 1. 1. 1. 0. 0.
1. 0. 1. 1. 1. 1. 0. 0. 1. 0. 0. 0. 0. 1. 1. 0. 1. 0. 0. 1.]
相似度: 0.0
###########################################################
【 而回顾中国...房前五名。 】和【 TVB两届...已经离婚。 】句子的比较结果:
=============== 分词结果: ===============
['回顾', '中国', '影视', '票房榜', '目前', '五名', '之中', '唐人街', '探案', '45', '亿元', '票房', '成绩', '排列', '第五', '长津湖', '打破', '41', '速度', '预估', '不久', '挤出']
['TVB', '两届', '帝王', '浩信', '近年', '事业', '发展', '顺风', '顺水', '作品', '一部', '成为', '网民', '热议', '对象', '感情', '方面', '似乎', '非常', '顺利', '早前', '更是', '传出', '结婚', '十年', '妻子', '陈自瑶', '已经', '离婚']
=============== 分词向量对应位上的词语: ===============
['陈自瑶', '中国', '顺水', '票房榜', '回顾', '近年', '速度', '两届', '预估', '早前', '五名', '票房', '似乎', '网民', '长津湖', '热议', '影视', '排列', '不久', '十年', '浩信', '唐人街', '妻子', '目前', '更是', '45', '离婚', 'TVB', '探案', '方面', '对象', '挤出', '感情', '亿元', '第五', '成为', '作品', '顺风', '结婚', '之中', '事业', '发展', '41', '传出', '帝王', '成绩', '打破', '顺利', '非常', '已经', '一部']
[0. 1. 0. 1. 1. 0. 1. 0. 1. 0. 1. 1. 0. 0. 1. 0. 1. 1. 1. 0. 0. 1. 0. 1.
0. 1. 0. 0. 1. 0. 0. 1. 0. 1. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 0.
0. 0. 0.]
[1. 0. 1. 0. 0. 1. 0. 1. 0. 1. 0. 0. 1. 1. 0. 1. 0. 0. 0. 1. 1. 0. 1. 0.
1. 0. 1. 1. 0. 1. 1. 0. 1. 0. 0. 1. 1. 1. 1. 0. 1. 1. 0. 1. 1. 0. 0. 1.
1. 1. 1.]
相似度: 0.0
###########################################################
Process finished with exit code 0
标签:分析,...,word,保供,绝杀,相似,分词,向量 来源: https://www.cnblogs.com/daweiguo/p/15528336.html