拿到GPU服务器后要干什么
作者:互联网
0. 上架服务器
上架服务器,配置IPMI。
1. 安装ubuntu server
登录IPMI管理ip,加载ubuntu-server的iso安装包为virtual media。重启选择安装介质。
安装系统,选装OpenSSH, docker等需要的软件。配置网络ipv4静态ip,掩码,网关等
https://ubuntu.com/tutorials/install-ubuntu-server
2. 安装NVIDIA驱动
https://help.ubuntu.com/community/BinaryDriverHowto/Nvidia
sudo pat install ubuntu-drivers-common ubuntu-drivers devices
提示推荐下载 nvidia-driver-510 (还是下 nvidia-driver-510-server 吧,不然会安装X图形界面)
sudo apt install nvidia-driver-510
安装后sudo reboot
重启,自动进入x server,此时ctrl+alt+F3进入命令行,查看 nvidia-smi
看到显卡驱动安装成功
(秀一下显卡)
3. 创建其他用户
sudo adduser [username]
# 批量创建用户:
# sudo newusers [users-info-file]
# 文件每一行内容:pw_name:pw_passwd:pw_uid:pw_gid:pw_gecos:pw_dir:pw_shell
sudo visudo
添加sudo权限 或者把用户直接添加到sudo组:
sudo usermod -G sudo -a [username]
# sudo usermod -G "" [username]
# 清除用户所在的二级组
如果发现用户名字写错了,可以更换用户名及所在目录,重命名用户组(一级组默认为用户名)
sudo usermod -d /home/[newname] -m -l [newname] [oldname]
sudo groupmod -n [newname] [oldname]
ps: 不要直接修改系统文件比如/etc/sudoer
, /etc/passwd
, /etc/group
等,应使用visudo
, usermod
, groupmod
等命令
Ubuntu账户管理,什么是一级二级组
用户及用户组重命名
man pages
4. 添加SSH连接,安装conda,安装cuda环境测试
ssh连接到vscode(装系统的时候安装过OpenSSH),把本地公钥放到.ssh/authorized_keys
,装各种插件
去官网wget
下载anaconda安装包,bash Anaconda*****.sh
安装到/opt/anaconda3
(都行)
修改/etc/bash.bashrc
,将anaconda的默认路径添加到所有用户的PATH变量。
pip换源,conda换源,创建demo环境,下载pytorch测试
python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
conda create --name demo python=3.9
conda activate demo
conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch
判断pytorch cuda cudnn等是否安装成功:
import torch
print('[pytorch version]:', torch.__version__)
if torch.cuda.is_available():
print("[标签:available,torch,后要,sudo,device,cuda,服务器,print,GPU
来源: https://www.cnblogs.com/harrypotterisdead/p/16288775.html