其他分享
首页 > 其他分享> > 兴趣点图谱的内容理解

兴趣点图谱的内容理解

作者:互联网

兴趣点图谱的内容理解

本节包括:

项目背景介绍

兴趣点图谱建设

• 节点挖掘

• 关系挖掘

兴趣点图谱应用

项目背景-推荐基本范式在这里插入图片描述

项目背景-推荐不准
在这里插入图片描述
搜索使用:词粒度进行召回,但是排序阶段,能够利用完整query排序,因此搜索可以使用basic粒度分词做召回。

eg: 王宝强马蓉离婚,会把同时包含‘王宝强’、‘马蓉’和‘离婚’的文章排在前面

推荐使用:词粒度进行召回,但是排序阶段,用户模型把文章中词关系丢失,分别作为兴趣点累计,因此推荐使用词粒度是不合理的。

eg:王宝强马蓉离婚,会分别累计‘王宝强’和‘马蓉’两个兴趣点。

项目背景-信息茧房在这里插入图片描述
项目背景-内容理解相关研究
在这里插入图片描述
个性化推荐要求

• 推荐系统需要积累用户模型,因此需要保留文章上下文,语义粒度要完整

• 除了抽取原文出现的兴趣点外,需要了解用户背后的消费动机,因此需要有推理能力

兴趣点图谱
在这里插入图片描述
Part1 兴趣点图谱建设
兴趣点挖掘

在这里插入图片描述
改进:

1)有监督方式:将基于对齐、pattern挖掘到的兴趣点作为训练样本,通过有监督方式提升效果

2)统一框架挖掘兴趣点:提出了一个GCTSP-Net框架来统一挖掘概念、事件、话题多种类型兴趣点
在这里插入图片描述
关系挖掘-上下位关系挖掘
在这里插入图片描述
分类-概念

方法:根据共现次数计算
在这里插入图片描述
概念-实体

方法:根据共现次数计算
在这里插入图片描述
缺点:准确率低,文章中会有大量的对比性实体,会引入噪音

改进:

1)监督学习的方式,提升准确率

2)自动化样本标注:利用用户的同session行为准备正样本,借鉴word2vec的思路,随机生成负样本

事件-话题

方法:Common Pattern Discovery (CPD)

事件1: “周杰伦|开|演唱会 ”

事件2: “泰勒斯威夫特|开|演唱会 ”

话题 => “歌手|开|演唱会 ”
在这里插入图片描述
关系挖掘-关联关系挖掘
方法:利用实体共现计算实体之间关联关系,篇章级共现和搜索级共现

缺点:

1)未共现的实体PAIR认为是无关联

2)共现次数少,通过共现计算关联度偏差大

改进:

1)实体向量化,可以计算任意实体PAR关联度

2)有监督训练提升效果,样本准备:高共现数据作为正样本, 随机负采样,控制正负样本比例

  1. loss优化:使用triplet loss学习样本之间的关联度强弱。

在这里插入图片描述
Part2 兴趣点图谱应用
内容理解
召回1:关系召回(包含上下位关系) 雷凌->省油家用车

召回2:语义召回 (缺失上下位关系)

句子级隐式语义召回

耗油5升->省油家用车

词语级显式语义召回 召回的候选太多,计算超时

匹配1:双塔 VS MatchPyramid
在这里插入图片描述
在这里插入图片描述
内容理解
在这里插入图片描述

标签:共现,图谱,样本,挖掘,理解,召回,兴趣
来源: https://blog.csdn.net/u011983997/article/details/122644980