其他分享
首页 > 其他分享> > 超全汇总!机器学习常用术语词汇表——下篇(建议收藏)

超全汇总!机器学习常用术语词汇表——下篇(建议收藏)

作者:互联网

N

 

模型中的一个数字在训练期间变成 NaN,这会导致模型中的很多或所有其他数字最终也会变成 NaN。

NaN 是“非数字”的缩写。

 

二元分类中,一种类别称为正类别,另一种类别称为负类别。正类别是我们要寻找的类别,负类别则是另一种可能性。例如,在医学检查中,负类别可以是“非肿瘤”。在电子邮件分类器中,负类别可以是“非垃圾邮件”。另请参阅正类别

 

一种模型,灵感来源于脑部结构,由多个层构成(至少有一个是隐藏层),每个层都包含简单相连的单元或神经元(具有非线性关系)。

 

神经网络中的节点,通常会接收多个输入值并生成一个输出值。神经元通过将激活函数(非线性转换)应用于输入值的加权和来计算输出值。

 

多含义术语,可以理解为下列两种含义之一:

 

将实际的值区间转换为标准的值区间(通常为 -1 到 +1 或 0 到 1)的过程。例如,假设某个特征的自然区间是 800 到 6000。通过减法和除法运算,您可以将这些值标准化为位于 -1 到 +1 区间内。

另请参阅缩放

 

用整数或实数表示的特征。例如,在房地产模型中,您可能会用数值数据表示房子大小(以平方英尺或平方米为单位)。如果用数值数据表示特征,则可以表明特征的值相互之间具有数学关系,并且与标签可能也有数学关系。例如,如果用数值数据表示房子大小,则可以表明面积为 200 平方米的房子是面积为 100 平方米的房子的两倍。此外,房子面积的平方米数可能与房价存在一定的数学关系。

并非所有整数数据都应表示成数值数据。例如,世界上某些地区的邮政编码是整数,但在模型中,不应将整数邮政编码表示成数值数据。这是因为邮政编码 20000 在效力上并不是邮政编码 10000 的两倍(或一半)。此外,虽然不同的邮政编码确实与不同的房地产价值有关,但我们也不能假设邮政编码为 20000 的房地产在价值上是邮政编码为 10000 的房地产的两倍。邮政编码应表示成分类数据

数值特征有时称为连续特征

 

一个开放源代码数学库,在 Python 中提供高效的数组操作。Pandas 建立在 Numpy 之上。


O

 

算法尝试优化的指标。

 

生成一组预测,存储这些预测,然后根据需求检索这些预测。与在线推断相对。

 

一种稀疏向量,其中:

独热编码常用于表示拥有有限个可能值的字符串或标识符。例如,假设某个指定的植物学数据集记录了 15000 个不同的物种,其中每个物种都用独一无二的字符串标识符来表示。在特征工程过程中,您可能需要将这些字符串标识符编码为独热向量,向量的大小为 15000。

 

一种机器学习方法,通常用于对象分类,旨在通过单个训练样本学习有效的分类器。

另请参阅少量样本学习

 

假设某个分类问题有 N 种可能的解决方案,一对多解决方案将包含 N 个单独的二元分类器 - 一个二元分类器对应一种可能的结果。例如,假设某个模型用于区分样本属于动物、蔬菜还是矿物,一对多解决方案将提供下列三个单独的二元分类器:

 

根据需求生成预测。与离线推断相对。

 

TensorFlow 图中的节点。在 TensorFlow 中,任何创建、操纵或销毁张量的过程都属于操作。例如,矩阵相乘就是一种操作,该操作以两个张量作为输入,并生成一个张量作为输出。

 

梯度下降法的一种具体实现。TensorFlow 的优化器基类是 tf.train.Optimizer。不同的优化器可能会利用以下一个或多个概念来增强梯度下降法在指定训练集中的效果:

甚至还包括 NN 驱动的优化器

 

与大多数其他值差别很大的值。在机器学习中,下列所有值都是离群值。

离群值常常会导致模型训练出现问题。

 

神经网络的“最后”一层,也是包含答案的层。

 

创建的模型与训练数据过于匹配,以致于模型无法根据新数据做出正确的预测。


P

 

面向列的数据分析 API。很多机器学习框架(包括 TensorFlow)都支持将 Pandas 数据结构作为输入。请参阅 Pandas 文档

 

机器学习系统自行训练的模型的变量。例如,权重就是一种参数,它们的值是机器学习系统通过连续的训练迭代逐渐学习到的。与超参数相对。

 

一种作业,负责在分布式设置中跟踪模型参数

 

在训练期间(通常是在梯度下降法的单次迭代中)调整模型参数的操作。

 

一种导数,除一个变量之外的所有变量都被视为常量。例如,f(x, y) 对 x 的偏导数就是 f(x) 的导数(即,使 y 保持恒定)。f 对 x 的偏导数仅关注 x 如何变化,而忽略公式中的所有其他变量。

 

参数服务器间分割变量的算法。

 

多含义术语,具有以下含义:

 

一种衡量指标,用于衡量模型能够多好地完成任务。例如,假设任务是读取用户使用智能手机键盘输入字词时输入的前几个字母,然后列出一组可能的完整字词。此任务的困惑度 (P) 是:为了使列出的字词中包含用户尝试输入的实际字词,您需要提供的猜测项的个数。

困惑度与交叉熵的关系如下:

$$P= 2^{-\text{cross entropy}}$$

 

机器学习算法的基础架构。流水线包括收集数据、将数据放入训练数据文件、训练一个或多个模型,以及将模型导出到生产环境。

 

池化 (pooling)

将一个或多个由前趋的卷积层创建的矩阵压缩为较小的矩阵。池化通常是取整个池化区域的最大值或平均值。以下面的 3x3 矩阵为例:

池化运算与卷积运算类似:将矩阵分割为多个切片,然后按步长逐个运行卷积运算。例如,假设池化运算按 1x1 步长将卷积矩阵分割为 2x2 个切片。如下图所示,进行了四个池化运算。假设每个池化运算都选择该切片中四个值的最大值:

 

池化有助于在输入矩阵中实现平移不变性

对于视觉应用来说,池化的更正式名称为空间池化。时间序列应用通常将池化称为时序池化。按照不太正式的说法,池化通常称为下采样或降采样。

 

二元分类中,两种可能的类别分别被标记为正类别和负类别。正类别结果是我们要测试的对象。(不可否认的是,我们会同时测试这两种结果,但只关注正类别结果。)例如,在医学检查中,正类别可以是“肿瘤”。在电子邮件分类器中,正类别可以是“垃圾邮件”。

负类别相对。

 

一种分类模型指标。精确率指模型正确预测正类别的频率,即:

精确率正例数正例数假正例数

 

模型在收到输入样本后的输出。

 

一种值,用于表明预测平均值与数据集中标签的平均值相差有多大。

 

其他人已建好的 Estimator。TensorFlow 提供了一些预创建的 Estimator,包括 DNNClassifierDNNRegressor 和 LinearClassifier。您可以按照这些说明构建自己预创建的 Estimator。

 

已经过训练的模型或模型组件(例如嵌套)。有时,您需要将预训练的嵌套馈送到神经网络。在其他时候,您的模型将自行训练嵌套,而不依赖于预训练的嵌套。

 

在开始采用相应数据进行训练之前,您对这些数据抱有的信念。例如,href="https://developers.google.cn/machine-learning/glossary/?hl=zh-CN#L2_regularization">L2 正则化依赖的先验信念是权重应该很小且应以 0 为中心呈正态分布。


Q

 

一种 TensorFlow 操作,用于实现队列数据结构。通常用于 I/O 中。


R

 

机器学习中的一个多含义术语,可以理解为下列含义之一:

 

样本提供标签的人。有时称为“注释者”。

 

一种分类模型指标,用于回答以下问题:在所有可能的正类别标签中,模型正确地识别出了多少个?即:

$$\text{召回率} = \frac{\text{正例数}} {\text{正例数} + \text{假负例数}}$$

 

一种激活函数,其规则如下:

 

一种模型,能够输出连续的值(通常为浮点值)。请与分类模型进行比较,分类模型会输出离散值,例如“黄花菜”或“虎皮百合”。

 

对模型复杂度的惩罚。正则化有助于防止出现过拟合,包含以下类型:

 

一种标量值,以 lambda 表示,用于指定正则化函数的相对重要性。从下面简化的损失公式中可以看出正则化率的影响:

最小化损失方程正则化方程

提高正则化率可以减少过拟合,但可能会使模型的准确率降低。

 

将数据映射到实用特征的过程。

 

不同分类阈值下的正例率假正例率构成的曲线。另请参阅曲线下面积

 

您指定的目录,用于托管多个模型的 TensorFlow 检查点和事件文件的子目录。

 

均方误差的平方根。

 

在图像分类问题中,即使图像的方向发生变化,算法也能成功地对图像进行分类。例如,无论网球拍朝上、侧向还是朝下放置,该算法仍然可以识别它。请注意,并非总是希望旋转不变;例如,倒置的“9”不应分类为“9”。

另请参阅平移不变性大小不变性


S

 

保存和恢复 TensorFlow 模型时建议使用的格式。SavedModel 是一种独立于语言且可恢复的序列化格式,使较高级别的系统和工具可以创建、使用和转换 TensorFlow 模型。

如需完整的详细信息,请参阅《TensorFlow 编程人员指南》中的保存和恢复

 

一种 TensorFlow 对象,负责保存模型检查点。

 

特征工程中的一种常用做法,是指对某个特征的值区间进行调整,使之与数据集中其他特征的值区间一致。例如,假设您希望数据集中所有浮点特征的值都位于 0 到 1 区间内,如果某个特征的值位于 0 到 500 区间内,您就可以通过将每个值除以 500 来缩放该特征。

另请参阅标准化

 

一个热门的开放源代码机器学习平台。请访问 www.scikit-learn.org

 

训练模型时采用的数据中,某些训练样本有标签,而其他样本则没有标签。半监督式学习采用的一种技术是推断无标签样本的标签,然后使用推断出的标签进行训练,以创建新模型。如果获得有标签样本需要高昂的成本,而无标签样本则有很多,那么半监督式学习将非常有用。

 

一种模型,其输入具有序列依赖性。例如,根据之前观看过的一系列视频对观看的下一个视频进行预测。

 

封装了 TensorFlow 运行时状态的对象,用于运行全部或部分。在使用底层 TensorFlow API 时,您可以直接创建并管理一个或多个 tf.session 对象。在使用 Estimator API 时,Estimator 会为您创建会话对象。

 

一种函数,可将逻辑回归输出或多项回归输出(对数几率)映射到概率,以返回介于 0 到 1 之间的值。S 型函数的公式如下:

$$y = \frac{1}{1 + e^{-\sigma}}$$

逻辑回归问题中, 非常简单:

$$\sigma = b + w_1x_1 + w_2x_2 + … w_nx_n$$

换句话说,S 型函数可将 \(\sigma\) 转换为介于 0 到 1 之间的概率。

在某些神经网络中,S 型函数可作为激活函数使用。

 

在图像分类问题中,即使图像的大小发生变化,算法也能成功地对图像进行分类。例如,无论一只猫以 200 万像素还是 20 万像素呈现,该算法仍然可以识别它。请注意,即使是最好的图像分类算法,在大小不变性方面仍然会存在切实的限制。例如,对于仅以 20 像素呈现的猫图像,算法(或人)不可能正确对其进行分类。

另请参阅平移不变性旋转不变性

 

一种函数,可提供多类别分类模型中每个可能类别的概率。这些概率的总和正好为 1.0。例如,softmax 可能会得出某个图像是狗、猫和马的概率分别是 0.9、0.08 和 0.02。(也称为完整 softmax。)

候选采样相对。

 

一种特征向量,其中的大多数值都为 0 或为空。例如,某个向量包含一个为 1 的值和一百万个为 0 的值,则该向量就属于稀疏向量。再举一个例子,搜索查询中的单词也可能属于稀疏特征 - 在某种指定语言中有很多可能的单词,但在某个指定的查询中仅包含其中几个。

密集特征相对。

 

一种张量表示法,仅存储非零元素。

例如,英语中包含约一百万个单词。表示一个英语句子中所用单词的数量,考虑以下两种方式:

例如,假设以两种方式来表示句子“Dogs wag tails.”。如下表所示,密集表示法将使用约一百万个单元格;稀疏表示法则只使用 3 个单元格:

 

向量或矩阵中设置为 0(或空)的元素数除以该向量或矩阵中的条目总数。以一个 10x10 矩阵(其中 98 个单元格都包含 0)为例。稀疏性的计算方法如下:

$${\text{稀疏性}} = \frac{\text{98}} {\text{100}} = {\text{0.98}}$$

特征稀疏性是指特征向量的稀疏性;模型稀疏性是指模型权重的稀疏性。

 

请参阅池化

 

合页损失函数的平方。与常规合页损失函数相比,平方合页损失函数对离群值的惩罚更严厉。

 

线性回归中使用的损失函数(也称为 L2 损失函数)。该函数可计算模型为有标签样本预测的值和标签的实际值之差的平方。由于取平方值,因此该损失函数会放大不佳预测的影响。也就是说,与 href="https://developers.google.cn/machine-learning/glossary/?hl=zh-CN#L1_loss">L1 损失函数相比,平方损失函数对离群值的反应更强烈。

 

离线训练的一种模型。

 

数据集中数据的一种属性,表示数据分布在一个或多个维度保持不变。这种维度最常见的是时间,即表明平稳性的数据不随时间而变化。例如,从 9 月到 12 月,表明平稳性的数据没有发生变化。

 

对一个批次的向前和向后评估。

 

学习速率的含义相同。

 

批次大小为 1 的一种梯度下降法。换句话说,SGD 依赖于从数据集中随机均匀选择的单个样本来计算每步的梯度估算值。

 

一种算法,用于平衡以下两个目标:

例如,旨在将基于训练集的损失和正则化降至最低的函数就是一种结构风险最小化算法。

如需更多信息,请参阅 http://www.svms.org/srm/

经验风险最小化相对。

 

在卷积运算或池化中,下一个系列的输入切片的每个维度中的增量。例如,下面的动画演示了卷积运算过程中的一个 (1,1) 步长。因此,下一个输入切片是从上一个输入切片向右移动一个步长的位置开始。当运算到达右侧边缘时,下一个切片将回到最左边,但是下移一个位置。

 

 

前面的示例演示了一个二维步长。如果输入矩阵为三维,那么步长也将是三维。

 

请参阅池化

 

在 TensorFlow 中的某一计算出的一个值或一组值,通常用于在训练期间跟踪模型指标。

 

根据输入数据及其对应的标签来训练模型。监督式机器学习类似于学生通过研究一系列问题及其对应的答案来学习某个主题。在掌握了问题和答案之间的对应关系后,学生便可以回答关于同一主题的新问题(以前从未见过的问题)。请与非监督式机器学习进行比较。

 

一种特征,不在输入特征之列,而是从一个或多个输入特征衍生而来。合成特征包括以下类型:

仅通过标准化缩放创建的特征不属于合成特征。


T

 

标签的含义相同。

 

在不同时间点记录的数据。例如,记录的一年中每一天的冬外套销量就属于时态数据。

 

TensorFlow 程序中的主要数据结构。张量是 N 维(其中 N 可能非常大)数据结构,最常见的是标量、向量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。

 

一种 ASIC(应用专用集成电路),用于优化 TensorFlow 程序的性能。

 

请参阅等级

 

张量在各种维度中包含的元素数。例如,张量 [5, 10] 在一个维度中的形状为 5,在另一个维度中的形状为 10。

 

张量包含的标量总数。例如,张量 [5, 10] 的大小为 50。

 

一个信息中心,用于显示在执行一个或多个 TensorFlow 程序期间保存的摘要信息。

 

一个大型的分布式机器学习平台。该术语还指 TensorFlow 堆栈中的基本 API 层,该层支持对数据流图进行一般计算。

虽然 TensorFlow 主要应用于机器学习领域,但也可用于需要使用数据流图进行数值计算的非机器学习任务。

 

一款用于直观呈现不同的超参数对模型(主要是神经网络)训练的影响的程序。要试用 TensorFlow Playground,请前往 http://playground.tensorflow.org

 

一个平台,用于将训练过的模型部署到生产环境。

 

数据集的子集,用于在模型经由验证集的初步验证之后测试模型。

训练集验证集相对。

 

一种标准协议缓冲区,旨在描述用于机器学习模型训练或推断的输入数据。

 

机器学习和统计学的一个子领域,旨在分析时态数据。很多类型的机器学习问题都需要时间序列分析,其中包括分类、聚类、预测和异常检测。例如,您可以利用时间序列分析根据历史销量数据预测未来每月的冬外套销量。

 

确定构成模型的理想参数的过程。

 

数据集的子集,用于训练模型。

验证集测试集相对。

 

将信息从一个机器学习任务迁移到另一个机器学习任务。例如,在多任务学习中,一个模型可以完成多项任务,例如针对不同任务具有不同输出节点的深度模型。迁移学习可能涉及将知识从较简单任务的解决方案迁移到较复杂的任务,或者将知识从数据较多的任务迁移到数据较少的任务。

大多数机器学习系统都只能完成一项任务。迁移学习是迈向人工智能的一小步;在人工智能中,单个程序可以完成多项任务。

 

在图像分类问题中,即使图像中对象的位置发生变化,算法也能成功对图像进行分类。例如,无论一只狗位于画面正中央还是画面左侧,该算法仍然可以识别它。

另请参阅大小不变性旋转不变性

 

被模型正确地预测为负类别的样本。例如,模型推断出某封电子邮件不是垃圾邮件,而该电子邮件确实不是垃圾邮件。

 

被模型正确地预测为正类别的样本。例如,模型推断出某封电子邮件是垃圾邮件,而该电子邮件确实是垃圾邮件。

 

召回率的含义相同,即:

正例率正例数正例数假负例数

正例率是 ROC 曲线的 y 轴。


U

 

包含特征但没有标签的样本。无标签样本是用于进行推断的输入内容。在半监督式非监督式学习中,在训练期间会使用无标签样本。

 

训练模型,以找出数据集(通常是无标签数据集)中的规律。

非监督式机器学习最常见的用途是将数据分为不同的聚类,使相似的样本位于同一组中。例如,非监督式机器学习算法可以根据音乐的各种属性将歌曲分为不同的聚类。所得聚类可以作为其他机器学习算法(例如音乐推荐服务)的输入。在很难获取真标签的领域,聚类可能会非常有用。例如,在反滥用和反欺诈等领域,聚类有助于人们更好地了解相关数据。

非监督式机器学习的另一个例子是主成分分析 (PCA)。例如,通过对包含数百万购物车中物品的数据集进行主成分分析,可能会发现有柠檬的购物车中往往也有抗酸药。

请与监督式机器学习进行比较。


V

 

数据集的一个子集,从训练集分离而来,用于调整超参数

训练集测试集相对。


W

 

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

 

一种线性模型,通常有很多稀疏输入特征。我们之所以称之为“宽度模型”,是因为这是一种特殊类型的神经网络,其大量输入均直接与输出节点相连。与深度模型相比,宽度模型通常更易于调试和检查。虽然宽度模型无法通过隐藏层来表示非线性关系,但可以利用特征组合分桶等转换以不同的方式为非线性关系建模。

深度模型相对。

标签:例如,下篇,超全,训练,模型,词汇表,学习,类别,TensorFlow
来源: https://blog.csdn.net/dudu3332/article/details/117358983