Smale讲座总结

2021-07-23 12:33:38 作者：互联网

0. 前言

听了实验室6位老师的讲座之后，对老师们的研究内容有了基本的认识。下面将对这6次的内容做个总结。

1. 主动学习

主动学习方法，是指能够从任务出发，通过对任务的理解来制定标准，挑选最关键的样本，使其最有助于模型的学习过程

光看上面的概念，对什么是主动学习还是模模糊糊的。所以进一步用简单的话术来说明，在实际我们解决分类问题的时候，会使用传统的有监督学习的方法。一般，训练样本越多，最终分类的效果更好。但是，现实生活中，特别是某些特定领域，对样本的标记是很困难的，且需要这些领域的专家进行标记，这不仅要计算时间成本，还有经济成本。因此，如果能够通过较少的训练样本，就能得到较好的分类器，肯定是更好的。所以，就有了主动学习。主动学习通过特定的算法查询最关键的一些没有标记的样本，将这些样本交给专家标记，最后将这批标注好的样本放进训练集中提高模型精度。这个过程用下图就可以很清楚地描述。

在这里插入图片描述

在弄明白主动学习是什么后，在这个过程中可以进一步研究或者说值得讨论的点是什么呢？根据老师的讲解，大致有如下研究的过程。

怎样选择最关键的样本
- 以最大密度以及最远距离为标准，进行挑选；
- 多标准（基于不确定性、代表性、差异性考量）
每块挑选样本的数量
怎样分成不同的块
…
除此之外，主动学习中，查询策略非常多，不同的查询策略又可以进一步扩展。且主动学习不仅仅可以和单标签结合，还可以是多标签、多实例、多视图，以及与不同的机器学习任务相结合等等。

2. 肠道微生物组学数据的机器学习研究方法

随着机器学习的进一步发展，其应用不仅仅在图像、语音等领域，在医学领域、石油领域等都有很多相关的研究。

对于肠道微生物数据的分析后，可以预测患者是否有相关病症。但是，不同于图像、语音、文本领域有很多开源的数据，这方面的数据的获取更难，且由于数据的特殊性，需要对数据进行处理。

其数据的特点是：高维特征、样本少、强稀疏、样本不均衡。所以，在进行进一步实验之前，需要解决原始数据存在的上述问题。即将数据进行扩充，且需要考量扩充多少，样本的正例和反例如何平衡。因此，主要选择合理的扩充策略。数据集扩充后，需要进行特征选择，这些特征是决定是否患病症的关键性的特征。最后，通过分类模型预测病症。

上述过程中，总结的是：在将机器学习方法与其他领域的内容相结合的时候，首先要获取数据，分析数据，根据特定数据的特点，做好数据的预处理；并根据处理的实际问题，选择合理的模型。

3. 形式概念分析&&推荐系统

形式概念分析（FCA Formal Concept Analysis），这个内容之前没有听过，听起来比较抽象。

概念格：原始数据 → \rightarrow → 形式背景 → \rightarrow → 概念格

概念格的每个节点称为一一个概念，它是由外延和内涵两部分构成，外延表示概念所包含的所有对象的集合，内涵表示外延中所有对象共同的属性集合。

形式背景（Formal Context）

定义1：
形式背景 (Formal Context) 由一个三元组T = (O, D, R)表示，其中O表示所有对象的集合，D表示所有属性的集合, R表示O和D之间存在的一种二元关系,即R ⊆ \subseteq ⊆ O x D。对于u∈O, m∈D，uRm表示u和m之间存在关系R。

一个简单的形式背景示例图如下：

	m 1 m_1 m1	m 3 m_3 m3
u 1 u_1 u1	1	1
u 2 u_2 u2	1	1
u 3 u_3 u3	0	1

定义2：
概念由一个二元组(E, I)表示，其中 E ∈ P(O)，I ∈ P(D)，P(O)和P(D)分别表示对象和属性的幂集，E和I按如下运算关系建立连接：
E ′ = { m ∈ D ∣ ∀ g ∈ E , g r m } I ′ = { g ∈ O ∣ ∀ m ∈ I , g r m } \begin{aligned} E^{\prime} &=\{m \in D \mid \forall g \in E, g r m\} \\ I^{\prime} &=\{g \in O \mid \forall m \in I, g r m\} \end{aligned} E′I′={m∈D∣∀g∈E,grm}={g∈O∣∀m∈I,grm}
当 r ⊆ R r \subseteq R r⊆R 时满足， E ′ = I , I ′ = E E^{\prime}=I, I^{\prime}=E E′=I,I′=E， E E E 和 I I I 分别称为概念的外延和内涵。

概念格是由概念的偏序构成的格序列，比较复杂的一个结构。
此部分，是将概念格这个理论与推荐系统相结合，但是并不是直接运用概念格，而是从概念格中取一部分作为概念集合，再通过概念集合得到是否推荐。

对于推荐系统这部分的内容，比较有趣的部分是交互推荐以及三支推荐。

交互推荐是比较常见也是主流的推荐的方式，用户当前的选择对下一次的推荐是有影响的，即这个过程是交互的。若你此次选择了动画片，系统会根据你此次的行为优化下一次的推荐。

三支推荐为用户的选择提供了一个能动的范围。即并不是非黑即白，非喜即厌。在推荐和不推荐中，还有一个推广。假设在0~1之间，有0.4和0.6，若某个人对某部影片的喜好度是0.9，则推荐；若是0.5，就对其推广；若小于0.4，表明用户不喜欢，就不推荐。

4. 油气勘探开发

用机器学习和人工智能的方法解决油气勘探开发领域的问题，这部分的研究是有实际的应用背景的。实验室的老师目前主要研究内容是拾取地震数据初至波。

目前，在油气勘探中，地震勘探是最有效的一种方法。这里的地震并不是天然地震，是人工地震。即通过炸药或者非炸药的一些方式激发地震波，并在地面设置一系列接收器接收反射的地震波，再进一步对数据进行处理。
在这里插入图片描述

标签：总结,概念,推荐,样本,学习,Smale,讲座,主动,数据
来源： https://blog.csdn.net/weixin_41857483/article/details/118973179