人工智能导论
作者:互联网
人工智能导论
1)人工智能:让机器像人一样具有一些能力,扩展人的智慧。
2)机器学*: 不显式编程地赋予计算机能力的研究领域。
3)AIOps: Artificial Intelligence for IT Operations,智能化运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学*的方式来进一步解决自动化运维没办法解决的问题。
4)常用算法和学*库:
- 有监督学*:从给定的训练数据集中学*出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学*的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。
- 决策树
- 线性模型:回归、分类
- KNN:距离度量学*,邻*算法(KNN,K-NearestNeighbor)
- Bayes:贝叶斯
- 无监督学*:输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学*分类器设计。
- 降维
- 聚类
- 强化学*:
- 策略迭代
- 价值迭代
- 蒙特卡罗算法
- 时序差算法:DQN(Deep Q Network)
强化学*概念:
强化学*,reinforcement learning. 词本身具有三层含义:
(1) 它是一种问题,把一些现实生活的问题抽象成了强化学*
(2) 它是一种解决方法,使用强化学*这种方法,解决一些问题
(3) 它是一个研究的领域,学术界研究的领域
大家千万不要被这个词多意给搞混
强化学*这个idea来自于我们人类的学*过程,我们通常会在互动中学*,举两个例子,无人不知的小明同学为了考试100分努力学*,最终考试得了100分(reward),萧红同学上课不听讲,得到惩罚。小明同学从奖赏中学到了经验:努力学*。 萧红同学开始后悔,如果我怎样怎样,现在会怎样怎样。 前者的奖赏就是强化学*经常用的reward,后者的后悔,就是非完整信息博弈体系中用的learning from regret. 所谓强化学*,就是使用计算的方法把这个过程表示出来。
强化学*除了agent,environment 以外,通常包含以下几个要素:
(1) policy, 政策。 给定一个状态,采取各种行动的概率分布, policy会指导 agent做行动
(2) reward signal。agent每做一个动作都会立即有一个奖赏,称为reward
(3) value function。 奖赏是立即的、短期一次性的。 如何衡量长期的奖赏呢,采用value function 是代表一个状态的价值,状态的价值,就等于此状态以后所有行为reward的折现 期望
(4) 环境模型。 模型主要是模拟真实环境,就像下象棋一样,模型限制了你的游戏规则。 除此以外还有model-free方法
一句话概括,强化学*最基本的idea就是,agent通过与环境不断交互,学到主要问题,从而达到最终目标。
5)深度学*库--TensorFlow(流动的张量)
0维的张量 = 一个数字
1维的张量 = 一个向量
2维的张量 = 一个矩阵
3维的张量 = 时间序列
4维的张量 = 图像
5维的张量 = 视频
6)深度学*库--Keras
Keras是一个高层神经网络API,Keras由纯Python编写而成并基于Tensorflow、Theano以及CNTK后端。
Keras对底层深度学*框架(TensorFlow/CNTK/Theano)进行了封装。当你调用Keras的语句时,实际上,你所搭载的后台框架进行了一长串的操作。很多时候,TensorFlow等框架十几行的语句,在Keras中只是一行命令。
标签:运维,化学,Keras,人工智能,样本,导论,张量,reward 来源: https://www.cnblogs.com/rainbow-1/p/16031466.html