智慧海洋Task02 数据分析
作者:互联网
此部分为智慧海洋建设竞赛的数据分析模块,通过数据分析,可以熟悉数据,为后面的特征工程做准备,欢迎大家后续多多交流。
赛题:智慧海洋建设
数据分析的目的:
- EDA的主要价值在于熟悉整个数据集的基本情况(缺失值、异常值),来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
- 了解特征之间的相关性、分布,以及特征与预测值之间的关系。
- 为进行特征工程提供理论依据。
项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/wisdomOcean
2.1 学习目标
- 学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值、异常值)
- 学习了解变量之间的相互关系、变量与预测值之间的存在关系。
- 完成相应学习打卡任务
2.2 内容介绍
- 数据总体了解
- 读取数据集并了解数据集的大小,原始特征维度;
- 通过info了解数据类型;
- 粗略查看数据集中各特征的基本统计量
- 缺失值和唯一值
- 查看数据缺失值情况
- 查看唯一值情况
- 数据特性和特征分布
- 三类渔船轨迹的可视化
- 坐标序列可视化
- 三类渔船速度和方向序列可视化
- 三类渔船速度和方向的数据分布
作业:
- 请尝试用Task1中的异常处理代码对异常数据进行删除之后,再分别绘制速度和方向的数据分布图、速度和方向的分位图。
2.在前面我们已经进行了绘制速度和方向的数据分布图。由Task1的keperl.gl可知,不同地理位置和船舶类型的相关性较大。请尝试将相同类型船舶的轨迹给拼接起来并绘制经度和纬度的总体分布特征。之前由liu123的航空母舰队伍绘制的分布图如下所示。
标签:数据分析,特征,智慧,学习,可视化,Task02,数据,缺失 来源: https://blog.csdn.net/weixin_41608864/article/details/115771346