【数据科学原理与实践】数据准备
作者:互联网
知识点来源课程PPT
数据准备
加载数据
step 1:导入数据,使用 read.table()
方法。
d<-read.table(paste('http://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data',sep=''),stringsAsFactors = F,header=F)
step 2:根据说明文档,设置列名
colnames(d)<-c('Status.of.existing.checking.account','Duration.in.month','Credit.history', 'Purpose','Credit.amount','savings account/bonds','Present.employment.since','Instal1ment.rate.in.percentage.of.disposab1e.income','Persona1.status.and.sex','other.debtors/guarantors','Present.residence.since','Property','Age.in.years','other.instal1ment.plans','Housing' ,'Number.of.existing.credits.at.this.bank', 'Job','Number.of.people.being.liable.to.provide.maintenance.for','Telephone','foreign.worker','Good.Loan' )
探索数据
现实世界中的数据通常是脏的:
- 数据存在错误和不一致
- 数据存在缺失
- 名称/属性存在二义性
数据探索的方法:
- 处理缺失值、无效值以及离群值
- 概要统计方法:均值和中位数、方差和计数
- 可视化方法:数据的图示
- 数据概要和可视化的组合方法
缺失值:本身就是有信息量的。处理方法:删除或替换为其他值
无效值:可能是坏数据输入,也可能是某种表示“未知”的标志值。处理方法:删除或转换为有用值。
离群值:脱离了期望的数据范围。处理方法:删除或转化为有用值或保留
概要统计方法
summary()
可以得到最小值、最大值、平均值、中位数等信息
可视化:
单个变量的分布:
直方图:ggplot()+geom_histogram()
密度图:ggplot()+geom_denisty()
。当数据以百分数方式变化或以数量级方式变化比按绝对单位变化更重要时,应该使用对数刻度。scale_x_log10()
柱状图:ggplot()+geom_bar()
两个变量分布:
线条图、散点图、六角箱图(高密度图)、两个类别的柱状图
总结
概要统计发现有关数据范围、度量单位、数据类型和缺失值或无效值的问题。可视化更进一步了解数据分布和变量之间的关系。
管理数据
清洗数据
- 处理缺失值(忽略还是补全?)
- 删除整行记录或忽略整个属性
- 人工填充
- 使用一个全局值代替
- 使用平均数或中位数等代替(值随机性缺失)
- 用最大可能值推理(eg. 找最相似的点推理或使用贝叶斯或决策树推理)
step 1:通过数据探索,检测出缺失数据的位置
step 2:对缺失变量进行处理
- 转换数据
目的:使数据更容易建模且更容易理解
转换方法:
- 连续数据离散化(一些连续变量是否落入某个范围比确切值更重要)
- 规范化(当相对值比绝对值更有意义)
- 对数变换(针对倾斜分布和宽分布)
采样数据
用来选择一个样本总体的子集来代表全部数据的处理过程。采样的要点:采样的数据要能够准确代表全部数据
必要性:
- 在开发和精炼一个模型的过程中,在全集上训练模型之前可以很容易在小的采样子集进行测试和调试代码
- 减少数据量
- 更容易可视化,处理更快,模式更清晰,提高探索式分析的效率
- 用于划分测试集和训练集
随机采样:每个成员都有平等被选择的机会
系统采样:以固定间隔选择个体
分层采样:确保样本每个亚组都有适当的代表性
整群采样:每个亚组都具有和整个样本相似的特征,然后随机选择整个子组
训练集:为模型构建算法的提供数据,以便这些算法能够设置正确的参数来预测结果变量
测试集:为完成的结果模型提供数据,用来验证该模型的预测是否准确
标签:采样,方法,实践,step,可视化,原理,数据,缺失 来源: https://www.cnblogs.com/ting65536/p/16237142.html