其他分享
首页 > 其他分享> > 周志华《机器学习》(西瓜书)——学习笔记

周志华《机器学习》(西瓜书)——学习笔记

作者:互联网

第1章 绪论

1.1 引言

1.2 基本术语

"示例" (instance) 或"样本" (sample)

例如3个西瓜示例或样本:
(色泽=青绿;根蒂=蜷缩;敲声=浊响),
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),
(色泽=浅自;根蒂=硬挺;敲声=清脆)。

"属性" (attribute) 或"特征" (feature)

"属性值" (attribute value)

"属性空间" (attribute space) 、“样本空间” (sample space)或"输入空间"

"特征向量" (feature vector)

例如我们把"色泽" “根蒂”
“敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个"特征向量”
(feature vector).

一般地,预测任务是希望通过对训练集{(X1, Y1) , (X2, Y2) ,…, (Xm, Ym)} 进行学习,建立一个从输入空间X到输出空间y 的映射f: X→Y.

对二分类任务,通常令Y = {-1,+1} 或{0,1};
对多分类任务,IYI >2;
对回归任务, Y= R,R为实数集.

我们还可以对西瓜做"聚类" (clustering) ,即将训练集中的西瓜分成若干组,每组称为A个"簇" (cluster); 这些自动形成的簇可能对应一些潜在的概念划分,例如"浅色瓜" "深色瓜”,甚至“本地瓜”、“外地瓜”.这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。需说明的是,在聚类学习中,“浅色瓜”、 "本地瓜"这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息.

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类。
"监督学习" (supervised learning) :分类和回归。
"无监督学习" (unsupervised learning):聚类。

需注意的是,机器学习的目标是使学得的模型能很好地适用于"新样本",而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于新样本的能力,称为 “泛化” (generalization) 能力.

1.3 假设空间

**归纳(induction)与演绎(deduction)**是科学推理的两大基本手段。

例如,在数学公理系镜中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎;而"从样例中学习"显然是一个归纳的过程。因此亦称"归纳学习" (inductive learning).

标签:周志华,西瓜,敲声,示例,模型,根蒂,笔记,学习
来源: https://blog.csdn.net/yanghe4405/article/details/114002481