首页 > TAG信息列表 > 样本量

百亿特征维度、近万亿样本量,微博基于Spark的大规模机器学习应用

  作者丨吴磊,张拓宇   编辑丨郭芮   众所周知,自2015年以来微博的业务发展迅猛。如果根据内容来划分,微博的业务有主信息(Feed)流、热门微博、微博推送(Push)、反垃圾、微博分发控制等。每个业务都有自己不同的用户构成、业务关注点和数据特征。庞大的用户基数下,由用户相互关

抽样调查之分层抽样

1、在某工业系统所属企业中,中型100个,小型400个。采用简单随机抽样,以企业为单元,分别从两类企业中抽取3个企业和5个企业,记录1990年的工业总产值(单位:千元)。3个中型企业分别为12300、11500、9800;5个小型企业分别为3200、5600、2300、4200、3600.试估计工业系统1990年的工业总产值

SAS 正态性检验

data onetest; input patno wt_kg ht_cm @@; bmi = wt_kg / ((ht_cm/100)**2); datalines; 1 101.7 178 2 97.1 170 3 114.2 191 4 101.9 179 5 93.1 182 6 108.1 177 7 85.0 184 8 89.1 182 9 95.8 179 10 97.8 183 11 78.7 . 12 77.5 172 13 102.8 183 14 81.1 1

大数据与建模全线条就业实战班【视频代码齐全】

    样本量 如果减少第一类、第二类错误,需要我们控制样本量。所以牵涉到样本量的计算。样本量的计算公式比较复杂,但是一个通俗的理解是:如果实验组大大提升了效果,那么我们需要的样本就越少,如果样本波动小,那么需要的样本量也就越少。所以样本量和实验组与控制组之间的差额(也

详细讲解ABTest假设检验【实验设计&结论分析】数据分析

目录 一、实验设计1确定业务目标2 选择检验指标2.1 选择一类指标2.2 选择统计量 3 确定原假设与备择假设4 两类统计错误的防范5 样本量计算6 检验策略选择、设计分组策略7 当企业没有AB测试的条件的时候,如何解决问题? 二、实验结论分析1 决策统计检验2 决策业务问题 结束语

懂得假设检验就可以了吗?实际遇到的需要ABTest的业务和练习时的ABTest项目区别有多大?

我在上一篇博客中提到了什么是ABTest,并引用了一个项目,感兴趣的朋友可以再去看看。 不过,当进一步了解数据分析师的真实工作场景时,我发现参与一项需要用到ABTest的业务时,往往并比我在上一篇项目实战时所说的复杂太多。 今天这篇是本新手认为的数据分析师在实际遇到的需要ABTest

深度学习项目构建(持续更新)

文章目录 一. 数据集1.1 获取数据集1.2 导入PyTorch1.3 数据预处理1.4 定义训练需要的一切元素1.5 定义训练函数1.5 Baseline 二. 模型选择 (分类网络)2.1 原图尺寸接近30X30 (特征数量接近1000)2.2 原图尺寸接近224X224(特征数量接近4w) 三. 依据精度和效率选出基准模型,

拓端tecdat|R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口

原文链接:http://tecdat.cn/?p=23038 原文出处:拓端数据部落公众号 简介 假设我们需要设计一个抽样调查,有一个完整的框架,包含目标人群的信息(识别信息和辅助信息)。如果我们的样本设计是分层的,我们需要选择如何在总体中形成分层,以便从现有的辅助信息中获得最大的优势。 换句话说,我们必

拓端tecdat|R语言蒙特卡洛方法:方差分量的Metropolis Hastings(M-H)、吉布斯Gibbs采样比较分析

原文链接:http://tecdat.cn/?p=23019  原文出处:拓端数据部落公众号 蒙特卡洛方法利用随机数从概率分布P(x)中生成样本,并从该分布中评估期望值,该期望值通常很复杂,不能用精确方法评估。在贝叶斯推理中,P(x)通常是定义在一组随机变量上的联合后验分布。然而,从这个分布中获得独立样本并不

决策树API、泰坦尼克号生存预测案例

一、决策树API 在sklearn中使用sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)构建决策树 其中: criterion 特征选择标准"gini"或者"entropy",前者代表基尼系数,后者代表信息增益。一默认"gini",即CART算法。min_samples_split 内部节

芝加哥诺奖Heckman开撕哈佛新星Chetty, 样本量胜过仔细的数据分析?

凡是搞计量经济的,都关注这个号了 稿件:econometrics666@126.com 所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问. 关于Heckman教授,我们引荐过①Heckman两步法是什么? 及其内生性问题? ②Tobit, Truncreg, Heckman, Probit及

BAT大佬带你了解AB测试

作者介绍@SvenBAT数据打杂专家,做过用户增长,目前负责数据全链路。从互联网发展至今,人口红利逐渐消失殆尽。截至2020年底,中国的互联网用户已经高达10亿人,已经在中国人口中占了很高的比例。每个赛道都出现了细分和垂类。产品也在不断下沉,不断的触达四五线的用户。人群也在不断的被细分

数据分析中样本类别分布不均衡问题

所谓不均衡指的是不同类别的样本量差异非常大。从数据规模上分为大数据分布不均衡和小数据分布不均衡两种。 大数据分布不均衡:数据规模大,其中的小样本类的占比较少。但从每个特征的分布来看,小样本也覆盖了大部分或全部特征。 例如:1000万条数据,其中占比50万条的少数分类样本属于这

样本量大小会影响假设检验的结果(是否显著)吗?

今天听课听到这样一个结论:如果假设检验的样本量很大,那么显著性水平α应该设得小一点。   为什么呢?我没想通,于是去网上试图查找答案。结果发现网上很多人还在纠结:如果假设检验的样本量很大,那么会使假设检验的结果非常容易产生显著性。这是不是真的?样本量太大是不是不好?   我:??? 很久

2019.12.12. 王庆超 spss

单样本t检验及检验某个变量的总体均值和某指定值之间是否存在着显著性差异。如果是大样本的单样本检验,统计教科书上称为U检验,采用服从正态分布的U 统计量作为检验统计量。如果是小样本并且样本服从正态分布,则采用服从t分布的t统计量进行单样本T检验;否则,还用非参数检验。T 检验稳健

抽样调查

抽样调查 有限群推断 计算人口特征(人口普查) 估计人口特征(抽样调查) 普查与抽样调查 预算和时间 范围 精确性 可行性 ================================ 抽样调查的步骤 人口是多少? 感兴趣的参数是什么? 抽样框架是什么? 是否需要样本量? 要多少钱? *实际绘制样品的元素的列表 =========

业务篇

目录用户篇参考问题1.列举3个获取用户需求的方法并简述其应用的局限性2.某游戏,收入4月份比3月下降了20%,请列出收入下降的分析思路待续 用户篇 参考问题 1.列举3个获取用户需求的方法并简述其应用的局限性 调查问卷 通过问卷调查可以获得用户的基本信息和对产品的需求想法

EXCEL中的数据分析—抽样分析

今天给大家分享的是如何用EXCEL来做抽样分析。 有的时候我们的在使用数据的时候不需要直接使用全量的样本来进行分析,而是没有针对性的取出样本量中部分数据进行分析,如果针对性的取数又会对分析结果产生影响。所以今天咱们大家一起来看一下如何使用EXCEL来进行抽样。 首先我们

master 公式计算形如T(N) = a*T(N/b) + O(N^d)的复杂度

链接:https://www.nowcoder.com/questionTerminal/fe9be0ec96a14b39b2ec5c90fd7d554b?orderByHotValue=1&page=1&onlyReference=false来源:牛客网估计递归问题复杂度的通式,只要复杂度符合以下公式,都可以套用此公式计算时间复杂度 例子:递归方式查找数组最大值 T(N) = 2*T(N/2) + O(

Python解决数据样本类别分布不均衡问题

所谓不平衡指的是:不同类别的样本数量差异非常大。 数据规模上可以分为大数据分布不均衡和小数据分布不均衡。大数据分布不均衡:例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便于属于这种情况。小数据分布不均衡:例如拥有1000条数据样本的数据集中,其中占有10条的少数

数据采集方法-复习

试验设计 试验为序贯性质的 单因子 两因子 多因子(介绍) 两因子部分设计 PB设计(为了使设计更加简单) 三个基本原则 重复性 随机化 分区组(区分因子) 单因子,两因子,多因子 方差分析主要,回归分析次要 两因子 随机化区组设计(含有区组因子)公式 若只有处理因子,直接进行方差分析;区组因