其他分享
首页 > 其他分享> > Smale讲座总结

Smale讲座总结

作者:互联网

0. 前言

听了实验室6位老师的讲座之后,对老师们的研究内容有了基本的认识。下面将对这6次的内容做个总结。

1. 主动学习

主动学习方法,是指能够从任务出发,通过对任务的理解来制定标准,挑选最关键的样本,使其最有助于模型的学习过程

光看上面的概念,对什么是主动学习还是模模糊糊的。所以进一步用简单的话术来说明,在实际我们解决分类问题的时候,会使用传统的有监督学习的方法。一般,训练样本越多,最终分类的效果更好。但是,现实生活中,特别是某些特定领域,对样本的标记是很困难的,且需要这些领域的专家进行标记,这不仅要计算时间成本,还有经济成本。因此,如果能够通过较少的训练样本,就能得到较好的分类器,肯定是更好的。所以,就有了主动学习。主动学习通过特定的算法查询最关键的一些没有标记的样本,将这些样本交给专家标记,最后将这批标注好的样本放进训练集中提高模型精度。这个过程用下图就可以很清楚地描述。

在这里插入图片描述

在弄明白主动学习是什么后,在这个过程中可以进一步研究或者说值得讨论的点是什么呢?根据老师的讲解,大致有如下研究的过程。

2. 肠道微生物组学数据的机器学习研究方法

随着机器学习的进一步发展,其应用不仅仅在图像、语音等领域,在医学领域、石油领域等都有很多相关的研究。

对于肠道微生物数据的分析后,可以预测患者是否有相关病症。但是,不同于图像、语音、文本领域有很多开源的数据,这方面的数据的获取更难,且由于数据的特殊性,需要对数据进行处理。

其数据的特点是:高维特征、样本少、强稀疏、样本不均衡。所以,在进行进一步实验之前,需要解决原始数据存在的上述问题。即将数据进行扩充,且需要考量扩充多少,样本的正例和反例如何平衡。因此,主要选择合理的扩充策略。数据集扩充后,需要进行特征选择,这些特征是决定是否患病症的关键性的特征。最后,通过分类模型预测病症。

上述过程中,总结的是:在将机器学习方法与其他领域的内容相结合的时候,首先要获取数据,分析数据,根据特定数据的特点,做好数据的预处理;并根据处理的实际问题,选择合理的模型。

3. 形式概念分析&&推荐系统

形式概念分析(FCA Formal Concept Analysis),这个内容之前没有听过,听起来比较抽象。

概念格:原始数据 → \rightarrow → 形式背景 → \rightarrow → 概念格

概念格的每个节点称为一一个概念,它是由外延和内涵两部分构成,外延表示概念所包含的所有对象的集合,内涵表示外延中所有对象共同的属性集合。

形式背景(Formal Context)

定义1:
形式背景 (Formal Context) 由一个三元组T = (O, D, R)表示,其中O表示所有对象的集合,D表示所有属性的集合, R表示OD之间存在的一种二元关系,即R ⊆ \subseteq ⊆ O x D。对于u∈O, m∈DuRm表 示u和m之间存在关系R

一个简单的形式背景示例图如下:

m 1 m_1 m1​ m 2 m_2 m2​ m 3 m_3 m3​
u 1 u_1 u1​101
u 2 u_2 u2​101
u 3 u_3 u3​001

定义2:
概念由一个二元组(E, I)表示,其中 EP(O),IP(D),P(O)和P(D)分别表示对象和属性的幂集,EI按如下运算关系建立连接:
E ′ = { m ∈ D ∣ ∀ g ∈ E , g r m } I ′ = { g ∈ O ∣ ∀ m ∈ I , g r m } \begin{aligned} E^{\prime} &=\{m \in D \mid \forall g \in E, g r m\} \\ I^{\prime} &=\{g \in O \mid \forall m \in I, g r m\} \end{aligned} E′I′​={m∈D∣∀g∈E,grm}={g∈O∣∀m∈I,grm}​
当 r ⊆ R r \subseteq R r⊆R 时满足, E ′ = I , I ′ = E E^{\prime}=I, I^{\prime}=E E′=I,I′=E, E E E 和 I I I 分别称为概念的外延和内涵。

概念格是由概念的偏序构成的格序列,比较复杂的一个结构。
此部分,是将概念格这个理论与推荐系统相结合,但是并不是直接运用概念格,而是从概念格中取一部分作为概念集合,再通过概念集合得到是否推荐。

对于推荐系统这部分的内容,比较有趣的部分是交互推荐以及三支推荐。

交互推荐是比较常见也是主流的推荐的方式,用户当前的选择对下一次的推荐是有影响的,即这个过程是交互的。若你此次选择了动画片,系统会根据你此次的行为优化下一次的推荐。

三支推荐为用户的选择提供了一个能动的范围。即并不是非黑即白,非喜即厌。在推荐和不推荐中,还有一个推广。假设在0~1之间,有0.4和0.6,若某个人对某部影片的喜好度是0.9,则推荐;若是0.5,就对其推广;若小于0.4,表明用户不喜欢,就不推荐。

4. 油气勘探开发

用机器学习和人工智能的方法解决油气勘探开发领域的问题,这部分的研究是有实际的应用背景的。实验室的老师目前主要研究内容是拾取地震数据初至波。

目前,在油气勘探中,地震勘探是最有效的一种方法。这里的地震并不是天然地震,是人工地震。即通过炸药或者非炸药的一些方式激发地震波,并在地面设置一系列接收器接收反射的地震波,再进一步对数据进行处理。
在这里插入图片描述

标签:总结,概念,推荐,样本,学习,Smale,讲座,主动,数据
来源: https://blog.csdn.net/weixin_41857483/article/details/118973179