其他分享
首页 > 其他分享> > 决策树/树美团复赛-“轻食主义“消费者评论的情感分析/对核密度估计的理解/决策树基本知识-2021年12月10日

决策树/树美团复赛-“轻食主义“消费者评论的情感分析/对核密度估计的理解/决策树基本知识-2021年12月10日

作者:互联网

美团复赛-“轻食主义“消费者评论的情感分析

要不断拓宽自己的视野,这样才可以更多维度地对数据进行更多地思考。
一、全面认识了解轻食并了解轻食市场状况
主打“三低两高”-低脂、低热、低糖、高纤维、高蛋白
截止2019年9月,美团外卖轻食订单量同比增长98%,轻食商家数量同比增长58%。但是现有市场上并没有一个既能够集结轻食商家资源,又能够服务轻食爱好者需求的专业化平台。虽然受到疫情的影响,部分商家倒闭,但是数据显示2020年,有84%的消费者比以前更关注健康,新的轻食主义者也在不断涌现。除了极速增长的商家和订单数量,美团平台上也留下了海量、多维、亟待挖掘的食客评论数据。
二、基于背景研究提出问题

  1. 美团平台上轻食区顾客评论(好评、差评)的主题有哪些?
  2. 如何更精准地捕捉到轻食党的需求并整合推送出更一体化的服务?

三、研究的中心是对食客评论进行情感极性分析和主题挖掘,期望更深入地捕捉轻食主义者的消费情感体验以及顾客关注的焦点。
四、应用:设计“轻食+”小程序。“轻食+”是以轻食为核心向外辐射相关社区和服务(比如身材、健康管理等)的专业化平台。

对核密度估计的理解

核密度估计是用来估计未知的密度函数的。
核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,因而,在统计学理论和应用领域均受到高度的重视。
bayes方法是需要结合先验信息的,密度函数不好写出来,那就估计出来,完了之后再结合先验信息进行贝叶斯推断
非参数估计和非参数贝叶斯矩估计是不一样的东西,但是可以做一个对比。

决策树

应用的是归纳法
决策树是多叉树

分类决策树模型是通过一系列规则对数据进行分类的过程,是一种对实例进行分类的树形结构。
决策树包含两部分:结点和有向边,结点分为内部结点(圆圈,表示特征和属性),外部结点(方框,是类点)
所有的分叉都是从根节点出发的
每条路径都是一种IF-THEN规则
决策树是倒着的树
构造决策树的步骤:
1.构造根结点(放入所有数据)
2.选择最优特征,以此分割训练数据集(一定是有多个特征的)
3.若子集被正确分类,则构造叶结点;如果被分错误,则继续选择新的最优特征
4.重复2-3步,直到所有(大部分)训练数据子集被正确分类。
选择模型的时候不仅要关注模型对现有数据的拟合能力还要关注模型对未知数据的泛化(预测)能力,两者平衡才是最优模型。

统计学习方法可以分为概率模型和非概率模型
感知机和k近邻法是非概率模型
概率模型会涉及条件概率分布
决策树:就是给定特征条件下类的条件概率分布P(Y|X)
条件概率分布:是对特征空间的一个划分(partition)

如果我们有10个条件概率分布,就是对特征空间的10个划分,对应的是10个不同的决策树,我们就可以比较这10棵决策树,哪一棵表现的更好
特征空间是由特征向量表示的,特征向量是用来表示输入的每一个实例的,故认为输入空间和特征空间是相同的
划分:单元或者区域互不相交

标签:密度估计,结点,12,10,特征,轻食,决策树
来源: https://blog.csdn.net/weixin_51879748/article/details/121851875