Smale讲座总结
作者:互联网
0. 前言
听了实验室6位老师的讲座之后,对老师们的研究内容有了基本的认识。下面将对这6次的内容做个总结。
1. 主动学习
主动学习方法,是指能够从任务出发,通过对任务的理解来制定标准,挑选最关键的样本,使其最有助于模型的学习过程
光看上面的概念,对什么是主动学习还是模模糊糊的。所以进一步用简单的话术来说明,在实际我们解决分类问题的时候,会使用传统的有监督学习的方法。一般,训练样本越多,最终分类的效果更好。但是,现实生活中,特别是某些特定领域,对样本的标记是很困难的,且需要这些领域的专家进行标记,这不仅要计算时间成本,还有经济成本。因此,如果能够通过较少的训练样本,就能得到较好的分类器,肯定是更好的。所以,就有了主动学习。主动学习通过特定的算法查询最关键的一些没有标记的样本,将这些样本交给专家标记,最后将这批标注好的样本放进训练集中提高模型精度。这个过程用下图就可以很清楚地描述。
在弄明白主动学习是什么后,在这个过程中可以进一步研究或者说值得讨论的点是什么呢?根据老师的讲解,大致有如下研究的过程。
- 怎样选择最关键的样本
- 以最大密度以及最远距离为标准,进行挑选;
- 多标准(基于不确定性、代表性、差异性考量)
- 每块挑选样本的数量
- 怎样分成不同的块
…
除此之外,主动学习中,查询策略非常多,不同的查询策略又可以进一步扩展。且主动学习不仅仅可以和单标签结合,还可以是多标签、多实例、多视图,以及与不同的机器学习任务相结合等等。
2. 肠道微生物组学数据的机器学习研究方法
随着机器学习的进一步发展,其应用不仅仅在图像、语音等领域,在医学领域、石油领域等都有很多相关的研究。
对于肠道微生物数据的分析后,可以预测患者是否有相关病症。但是,不同于图像、语音、文本领域有很多开源的数据,这方面的数据的获取更难,且由于数据的特殊性,需要对数据进行处理。
其数据的特点是:高维特征、样本少、强稀疏、样本不均衡。所以,在进行进一步实验之前,需要解决原始数据存在的上述问题。即将数据进行扩充,且需要考量扩充多少,样本的正例和反例如何平衡。因此,主要选择合理的扩充策略。数据集扩充后,需要进行特征选择,这些特征是决定是否患病症的关键性的特征。最后,通过分类模型预测病症。
上述过程中,总结的是:在将机器学习方法与其他领域的内容相结合的时候,首先要获取数据,分析数据,根据特定数据的特点,做好数据的预处理;并根据处理的实际问题,选择合理的模型。
3. 形式概念分析&&推荐系统
形式概念分析(FCA Formal Concept Analysis),这个内容之前没有听过,听起来比较抽象。
概念格:原始数据 → \rightarrow → 形式背景 → \rightarrow → 概念格
概念格的每个节点称为一一个概念,它是由外延和内涵两部分构成,外延表示概念所包含的所有对象的集合,内涵表示外延中所有对象共同的属性集合。
形式背景(Formal Context)
定义1:
形式背景 (Formal Context) 由一个三元组T = (O, D, R)表示,其中O表示所有对象的集合,D表示所有属性的集合, R表示O和D之间存在的一种二元关系,即R ⊆ \subseteq ⊆ O x D。对于u∈O, m∈D,uRm表 示u和m之间存在关系R。
一个简单的形式背景示例图如下:
m 1 m_1 m1 | m 2 m_2 m2 | m 3 m_3 m3 | |
---|---|---|---|
u 1 u_1 u1 | 1 | 0 | 1 |
u 2 u_2 u2 | 1 | 0 | 1 |
u 3 u_3 u3 | 0 | 0 | 1 |
定义2:
概念由一个二元组(E, I)表示,其中 E ∈ P(O),I ∈ P(D),P(O)和P(D)分别表示对象和属性的幂集,E和I按如下运算关系建立连接:
E ′ = { m ∈ D ∣ ∀ g ∈ E , g r m } I ′ = { g ∈ O ∣ ∀ m ∈ I , g r m } \begin{aligned} E^{\prime} &=\{m \in D \mid \forall g \in E, g r m\} \\ I^{\prime} &=\{g \in O \mid \forall m \in I, g r m\} \end{aligned} E′I′={m∈D∣∀g∈E,grm}={g∈O∣∀m∈I,grm}
当 r ⊆ R r \subseteq R r⊆R 时满足, E ′ = I , I ′ = E E^{\prime}=I, I^{\prime}=E E′=I,I′=E, E E E 和 I I I 分别称为概念的外延和内涵。
概念格是由概念的偏序构成的格序列,比较复杂的一个结构。
此部分,是将概念格这个理论与推荐系统相结合,但是并不是直接运用概念格,而是从概念格中取一部分作为概念集合,再通过概念集合得到是否推荐。
对于推荐系统这部分的内容,比较有趣的部分是交互推荐以及三支推荐。
交互推荐是比较常见也是主流的推荐的方式,用户当前的选择对下一次的推荐是有影响的,即这个过程是交互的。若你此次选择了动画片,系统会根据你此次的行为优化下一次的推荐。
三支推荐为用户的选择提供了一个能动的范围。即并不是非黑即白,非喜即厌。在推荐和不推荐中,还有一个推广。假设在0~1之间,有0.4和0.6,若某个人对某部影片的喜好度是0.9,则推荐;若是0.5,就对其推广;若小于0.4,表明用户不喜欢,就不推荐。
4. 油气勘探开发
用机器学习和人工智能的方法解决油气勘探开发领域的问题,这部分的研究是有实际的应用背景的。实验室的老师目前主要研究内容是拾取地震数据初至波。
目前,在油气勘探中,地震勘探是最有效的一种方法。这里的地震并不是天然地震,是人工地震。即通过炸药或者非炸药的一些方式激发地震波,并在地面设置一系列接收器接收反射的地震波,再进一步对数据进行处理。
标签:总结,概念,推荐,样本,学习,Smale,讲座,主动,数据 来源: https://blog.csdn.net/weixin_41857483/article/details/118973179