首页 > TAG信息列表 > 样本数

性能测试-将现网流量转化成并发数

  PV、UV、IP基础概念: pv-->访问量:页面点击量,在一定时间点击或者刷新,就会记录一次,多次打开或者刷新同一个页面也会累计 uv-->独立访问:同一台电脑访问,只会累计一次,同一台电脑不管访问的多少页面,也只会累计一次,也可以理解为访问的电脑数量 ip-->独立的IP:同一个来源的IP访问,只会累

4.决策树算法api

1决策树算法api class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None) criterion 特征选择标准 "gini"或者"entropy",前者代表基尼系数,后者代表信息增益。一默认"gini",即CART算法。 min_samples_split 内部节点再划分所需最小

AB 测试的原理及要点

1 AB测试原理 ( b站理论 ) 2 适用范围/场景 3 AB测试的样本数计算   AB 测试什么时候停? 收集到一定样本量的情况下 4 AB测试的注意事项要点 样本选择随机化 5 常见面试问题 (知乎 + 极客)

分类算法评价指标

参考资料: PR曲线和F1-score 评价指标相关 李航. 统计学习方法[M]. 北京:清华大学出版社,2012. 准确率(Accuracy):对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。 精确率(Precision):衡量是否有误判。可以看出判断的正确率。 召回率(Recall):衡量是否有遗漏。可以看出

分类模型评估指标

(True Positive , TP):被模型预测为正的正样本。 (False Positive , FP):被模型预测为正的负样本。 (False Negative , FN):被模型预测为负的正样本。 (True Negative , TN):被模型预测为负的负样本。   Recall召回率:真正预测为正样本的样本数占实际正样本的样本数的比率 Precision精

【史诗级干货长文】决策树算法

决策树算法 1. 决策树算法简介2. 决策树分类原理3. cart剪枝3.1 为什么要剪枝?3.2 常用的减枝方法3.2.1 预剪枝3.2.2 后剪枝 3.3 小结 4. 特征工程-特征提取5. 决策树算法API6. 案例:泰坦尼克号乘客生存预测7. 回归决策树 1. 决策树算法简介 决策树思想的来源非常朴素,程序

【深度学习入门到精通系列】目标检测评估之P-R曲线深入理解

文章目录 1 概述 2 其他指标 3 结论 4 MAP 1 概述 P-R曲线中,P为图中precision,即精准度,R为图中recall,即召回率。 2 其他指标 1、准确率(Accuracy) 准确率(accuracy)计算公式为: 注:准确率是我们最常见的评价指标,而且很容易理解,就是被分对的样本数除以所有的样本数,通常来说,正确

精度、召回率、准确率、F1、ROC、AUC的理解

精度(accuracy) 分类正确的样本数占总样本数的比例 错误率(error rate) 分类错误的样本数占总样本数的比例 通常来说精度(accuracy)不是一个好的性能指标,尤其是处理数据有偏差时候比如一类非常多,一类很少。 比如手写数字识别问题,只判断一副图片是不是5,由于5的图片只占百分之10

决策树API、泰坦尼克号生存预测案例

一、决策树API 在sklearn中使用sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)构建决策树 其中: criterion 特征选择标准"gini"或者"entropy",前者代表基尼系数,后者代表信息增益。一默认"gini",即CART算法。min_samples_split 内部节

分类性能指标

一直以来,被召回率准确率精准率查全率查准率F1值混淆矩阵aucrocTPNPTNPN等等等等所困惑,每次需要知道具体的含义,都是去百度,百度完了看了就忘了,生气!百度了几十遍了!这回一定要总结完毕! 一、从混淆矩阵说起 混淆矩阵 confusion matrix 我预测的 正类 负类   实际情况 正类 TP

【机器学习灵魂拷问】训练数据不均衡如何处理?

当出现正负样本不均衡,比如在自然语言处理分类任务中,正样本数和负样本数的比例为 1:4,这种情况下不能直接去训练,需要做一下处理,处理方法如下: 主要有四种方法: 数据处理 上采样:对少量样本进行重复采样,让比例变成 4:4 下采样:对大多数样本进行少量采样,让比例变成 1: 1 构造少数样

核密度估计

核密度估计   密度函数就是分布函数的一阶导数 对现有数据来估计密度函数的时候,可以用分布函数的一阶导数进行估计。 找离散数据的分布函数可以用(小于t的样本数)/(总样本数),但这个是不可导的,没办法找导数   这时候考虑导数的定义     就是看在(-h, h)区间有多少个样本点,那么密度

ROC曲线的绘制

假设现在有一个二分类问题,先引入两个概念: 真正例率(TPR):正例中预测为正例的比例 假正例率(FPR):反例中预测为正例的比例 再假设样本数为6,现在有一个分类器1,它对样本的分类结果如下表(按预测值从大到小排序)  

互联网分析方法及应用——指标的选择

1,相对性:比如通过率及与逾期率 2,比较性:对关键绩效指标更定标杆值,通过划定上下警戒线进行预警监控,依据实际业务需要及严重程度可进行细分为黄色/红色警戒线; 3,互补性:指标单独呈现解释力薄弱的情况下,必须采用互补性质的指标补强。如绝对数值与比率。 4,多面性:    5,顺序性:如:进件,核准,

条件概率/全概率/贝叶斯公式

1、条件概率公式        设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为:                      P(A|B)=P(AB)/P(B) 分析:一般说到条件概率这一概念的时候,事件A和事件B都是同一实验下的不同的结果集合,事件A和事件B一

特征工程之特征预处理

原文链接:https://www.cnblogs.com/pinard/p/9093890.html   在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准

图像处理中的hard negative mining(难例挖掘)

原 图像处理中的hard negative mining(难例挖掘) 2018年10月27日 11:15:30 热带巨兽 阅读数 2307 本篇总结了一下知乎上的回答,原文链接:https://www.zhihu.com/question/46292829 在目标检测中我们会事先标记好ground_truth,接下来在图片中随机提取一系列sample,与gro

线性分类 Linear Classification

软分类:y 的取值只有正负两个离散值,例如 {0, 1} 硬分类:y 是正负两类区间中的连续值,例如 [0, 1]   一、感知机 主要思想:分错的样本数越少越好 用指示函数统计分错的样本数作为损失函数,不可微; 对错误分类样本,∑ -yi * f(xi) = ∑ -yi * WTxi  (因为一定大于0,所以损失函数越小表示

【模型指标】LIFT提升图

信用模型中的LIFT在模型评估中,我们常用到增益/提升(Gain/Lift)图来评估模型效果,其中的Lift是“运用该模型”和“未运用该模型”所得结果的比值。以信用评分卡模型的评分结果为例,我们通常会将打分后的样本按分数从低到高排序,取10或20等分(有同分数对应多条观测的

top-1 error 和 top-5 error的解释

转载自https://blog.csdn.net/FJY_sunshine/article/details/82734396  ImageNet 图像分类大赛评价标准采用 top-5 错误率,或者top-1错误率,即对一张图像预测5个类别,只要有一个和人工标注类别相同就算对,否则算错。 Top-1 = (正确标记 与 模型输出的最佳标记不同的样本数)/ 总样本