其他分享
首页 > 其他分享> > 1.准备工作——Pandas官方文档学习

1.准备工作——Pandas官方文档学习

作者:互联网

0. 前言

2022年5月,再次提起勇气来开始学习pandas。下面是后面我认为可能需要的

1. 安装

环境:Vscode+Pyhton3.10

有几个提前要做的步骤是很有必要的,可以避免很多初学者会遇到的麻烦。主要是Vscode用jupyter挺方便的。

Step1: 设置工作区(workspace)

【转载】生产力终极指南:用了两年,如今才算真正会用VS Code - 王大桃zzZ - 博客园

Step2: 建立虚拟环境(venv)

VScode中无法导入自定义模块的问题——搭建虚拟环境 - 王大桃zzZ - 博客园

这里需要注意的是,如果和我一样,同时装了python2和python3,那么你得用:

python3 -m venv venv

Step3: 安装pandas

pip install pandas

还有conda等其他方法来安装和配置环境,没尝试。

到这里,已经搭建好环境:

还需要做一个测试:

# 进入虚拟环境
PS /Users/watalo/programs/pandas-note> venv/bin/acitvate.ps1
# 启动python
(venv)PS /Users/watalo/programs/pandas-note> python 
>>> import pandas as pd
pd.test()

执行后,系统会进行一段时间的测试,看能不能用。我这里返回了很多信息,最关键的估计就是以下内容:

========== 7 failed, 132503 passed, 21237 skipped, 1077 xfailed, 5 xpassed, 192 warnings, 10 errors in 1368.28s (0:22:48) ===========

Step4: 安装依赖包

官方推荐了很多的依赖包,有数据处理、可视化、数据类型相关的。

Package 最低支持版本
setuptools 24.2.0
NumPy 1.13.3
python-dateutil 2.6.1
pytz 2017.2
numexpr
bottleneck
依赖名称 最低版本 注意
BeautifulSoup4 4.6.0 HTML parser for read_html (see note)
Jinja2 Conditional formatting with DataFrame.style
PyQt4 Clipboard I/O
PyQt5 Clipboard I/O
PyTables 3.4.2 HDF5-based 读写
SQLAlchemy 1.1.4 SQL support for databases other than sqlite
SciPy 0.19.0 Miscellaneous statistical functions
XLsxWriter 0.9.8 Excel读写
blosc Compression for msgpack
fastparquet 0.2.1 Parquet reading / writing
gcsfs 0.2.2 Google Cloud Storage access
html5lib HTML parser for read_html (see note)
lxml 3.8.0 HTML parser for read_html (see note)
matplotlib 2.2.2 可视化必装
openpyxl 2.4.8 Reading / writing for xlsx files
pandas-gbq 0.8.0 Google Big Query access
psycopg2 PostgreSQL engine for sqlalchemy
pyarrow 0.9.0 Parquet and feather reading / writing
pymysql 0.7.11 MySQL engine for sqlalchemy
pyreadstat SPSS files (.sav) reading
pytables 3.4.2 HDF5 reading / writing
qtpy Clipboard I/O
s3fs 0.0.8 Amazon S3 access
xarray 0.8.2 pandas-like API for N-dimensional data
xclip Clipboard I/O on linux
xlrd 1.1.0 Excel reading
xlwt 1.2.0 Excel writing
xsel Clipboard I/O on linux
zlib Compression for msgpack

成年人不做选择题,全部装了就完了。

提示:

  • 导出所有依赖包

    • pip install freeze > requirements.txt
  • 用requirements安装依赖包

    • pip install -r requirements.txt
  • 设置国内源

    pip install pip -U
    pip config set global.index-url https://pypi.douban.com/simple/
    

2. Pandas概论

Pandas 是 Python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。

处理哪些数据

两种数据结构

维数 名称 描述
1 Series 带标签的一维同构数组
2 DataFrame 带标签的,大小可变的,二维异构表格

种草:nbconvert

可以快速的将jupyternotebook 转成md等等各种格式。

安装:pip install nbconvert

使用:

  • cd 到脚本所在文件夹

  • jupyter nbconvert --to markdown xxxxxx.ipynb

标签:python,pandas,官方,文档,install,pip,writing,Pandas
来源: https://www.cnblogs.com/watalo/p/16316042.html