首页 > TAG信息列表 > 百面

百面机器学习--No.3 模型评估 -- 预测结果的衡量指标和局限性

预测结果的衡量指标 准确率精确率和召回率精确率召回率对比: P-R 曲线F1-scoreROC 曲线AUCROC和P-R曲线的不同两者的选择 准确率 准确率是指分类正确的样本占总样本个数的比例; 局限性: 会受到类别不平衡的影响,从而导致模型性能看起来好,但是实际效果会很差;举例:100样本中,有

记录篇:【百面机器学习】第二章.模型评估---余弦距离的应用

在机器学习问题中,通常将特征表示为向量的形式,所以在分析两个特征向量之间的相似性时,常使用余弦相似度来表示。余弦相似度的取值范围是[−1,1] ,相同的两个向量之间的相似度为1 。如果希望得到类似于距离的表示,将 1 减去余弦相似度即为余弦距离。因此,余弦距离的取值范围为[0,2] ,

记录篇:【百面机器学习】第一章.特征工程---特征归一化

为什么需要对数值类型的特征做归一化?   为了消除数据特征之间的量纲影响,我们需要对特征进行归一化的处理,使得不同指标之间具有可比性。    例如:分析一个人的身高和体重对健康的影响,如果使用米(m)和千克(kg)作为单位,那么身高特征会在1.6~1.8m的数值范围内,体重特征会在50~100kg的范围

百面机器学习1——特征工程篇

特征归一化 目的:消除数据特征之间的量纲影响 方法: 名称 线性函数归一化(Min-Max Scaling) 零均值归一化(Z-Score Normalization) 方法 对原始数据进行线性变换,使结果映射到[0,1]的范围 将数据映射到均值为0,标准差为1的分布上 公式 \(X_{norm}=\frac{X-X_{min}}{X_{max}-X_

百面机器学习

文章目录 1. 特征工程归一化类别特征编码高维组合特征的处理组合特征文本表示模型Word2Vec 2. 模型评估精确率与召回率的权衡回归模型的评价指标ROC曲线余弦距离余弦距离是否是一个严格定义的距离?模型评估的方法超参数调优过拟合和欠拟合 3. 经典算法SVMLR决策树 4. 降维PC

《百面机器学习》读书笔记(九)-前向神经网络

全部笔记的汇总贴:《百面机器学习》-读书笔记汇总 深度前馈网络(Deep Feedforward Networks)是一种典型的深度学习模型。其目标为拟合某个函数 f f f,即定义映射

百面深度学习之卷积神经网络知识总结

一. 卷积基础知识 卷积的特点: 局部连接,权值共享 1.1 感受野的计算 对于第i层为卷积或者池化层: R e i

【深度之眼】【百面机器学习】PCA降维

目录 知识点sklearn.decomposition.PCA()参数PCA对象方法 代码相关的库包KNNPCA显示代码完整的代码 知识点 sklearn.decomposition.PCA() 参数 1)n_components:这个参数可以帮我们指定希望PCA降维后的特征维度数目。最常用的做法是直接指定降维到的维度数目,此时n_compone

【百面】03_经典算法

  《百面》上本章节的内容非常精华,仅涉及SVM、LR、DT三个算法的少数问题,这是远远不够。所以这篇随笔会经常更新,接下来会把遇到的有价值的面试题目都整理在本节(关于经典算法的)。  【SVM】 1.简单介绍SVM   支持向量机简称为SVM,是一种二类分类模型,它的模型是定义在特征空间上

百面机器学习笔记-7

经典算法   逻辑回归   question:逻辑回归相比于线性回归,有何异同?   answer:逻辑回归处理的是分类问题,线性回归处理的是回归问题,这是两者的最本质的区别。逻辑回归中,因变量取值是一个二元分布,模型学习得出的是 ,即给定自变量和超参数后,得到因变量的期望,并基于此期望来处理预测

百面机器学习-2

特征工程   文本表示模型   question:有哪些文本表示模型?它们各有什么优缺点?   answer:词袋模型和N-gram模型、主题模型、词嵌入与深度学习模型   最基础的文本表示模型是词袋模型。就是将每篇文章看成一袋子 词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切

百面机器学习|第一章 特征工程

前言 此为本人学习《百面机器学习——算法工程师带你去面试》的学习笔记,详细请参考《百面机器学习》 第一章 特征工程 特征工程,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上讲,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在

百面机器学习(7)最优化方法

目录 01 有监督学习的损失函数 02 机器学习中的优化问题 03 经典优化算法 04 梯度验证 05 随机梯度下降法 06 随机梯度下降法的加速 07 L1正则化与稀疏性 机器学习算法 = 模型表征 + 模型评估 + 优化算法 优化算法:在模型表征空间中,找到模型评估指标最好的模型。   01 有监督学

百面数据挖掘工程师-题库(1)

• 数据挖掘的挖掘方法包括:( ) 算法工程师 京东 • 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务? 算法工程师 京东 • CRISP-DM(即“跨行业数据挖掘标准流程”)将项目分成的阶段为( ) 京东 运营 • 关联规则分析的Apriori算法在机器学习和数据挖掘中广泛使

《百面机器学习 算法工程师带你去面试》 高清PDF 百度网盘 下载分享

《百面机器学习 算法工程师带你去面试》 高清PDF 百度网盘 下载分享 下载地址:网盘下载 提取密码:u0aq 目录 推荐序 前言 机器学习算法工程师的自我修养 1章 特征工程 1节 特征归一化 第 2节 类别型特征 第3节 高维组合特征的处理 第4节 组合特征 第5节 文本表示模型 第6节 

百面机器学习读书笔记

P002----零均值归一化,思考,为什么归一化公式要除以标准差σ?   首先,了解标准差的定义:方差的平方根,那方差又是什么? 方差描述了随机变量X与期望值的偏离程度,目的是为了展示随机变量X取值的离散程度。那什么是随机变量?它与变量的区别在哪里? 个人理解如下: 简单地说,随机变量是指随机事件