安装conda,pytorch
作者:互联网
发现cuda又不能用了,不知道怎么回事
1,gpu-2上重新安装pytorch,但是http错误,换源不能解决问题
2,尝试在v-100上安装conda,然后再安装pytorch
参考
vim ~/.bashrc
这步,进入这个文件,常用操作:
https://blog.csdn.net/ylhsuper/article/details/61925713?ops_request_misc=&request_id=&biz_id=102&utm_term=%E5%A6%82%E4%BD%95%E9%80%80%E5%87%BA/.bashrc%E6%96%87%E4%BB%B6&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduwebdefault-3-.first_rank_v2_pc_rank_v29&spm=1018.2226.3001.4187
2021-06-03
更新,之前是在v-100上安装anacconda,这次尝试在gpu-2上重装anaconda
为什么要重装gpu-2的conda,因为安装了合适版本的pytorch之后,运行:
torch.cuda.is_available() # 在my-rdkit-env环境中
结果为False
先查看gpu-2 和v-100 的anaconda版本:
conda -V
结果:
gpu-2
v-100
说明conda4.8.3的是可用的,4.10.1是不可用的,可能。。。
开始!!!
还是按照这个教程来参考
1,下载anaconda,
wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2021.05-Linux-x86_64.sh
运行完成之后 conda -V 发现还是4.10.1版本,不知道为啥
conda list
尝试重装pytorch
首先需要查看cuda版本
网上的办法不可行,只有用如下命令才行得通:
nvidia-smi
可知gpu-2的cuda版本为10.0
可以顺便查看v100 cuda版本
CUDA Version: 11.2
安装对应版本的pytorch
采取官网安装:
如果命令输错了,但是已经按下enter健时可以用ctrl+c终止
查看后决定安装:pytorch==1.7.1
conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.0 -c pytorch
# 官网是cudatoolkit=10.1, 我改成了cudatoolkit=10.0
运行不成功
按照报错提示查看channels:
conda config --show channels
这里对比着看了一下:
gpu-2的channels有很多,都是后来添加的
v100的channels只有默认的
关于channels的其他命令:
conda config --show channels # 显示有哪些channels
conda config --show-sources # 显示channels文件所在位置,同时显示有哪些channels
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ # 添加channel
conda config --set show_channel_urls yes
conda config --remove channels 'https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/' # 删除channel
报channel的错误的话就尝试删除掉channels,只剩默认
conda config --remove channels 链接
最后只剩下defaults
重新运行安装代码
conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.0 -c pytorch
安装完成了,但是发现导入torch模块时报错找不到该模块,于是尝试重新安装1.7.版本的
conda install pytorch==1.7.0 torchvision==0.8.0 torchaudio==0.7.0 cudatoolkit=10.0 -c pytorch
# 同样还是官网是cudatoolkit=10.1, 我改成了cudatoolkit=10.0
还是不行,后来看到python是3.8.5的所以,尝试降到3.7
创建一个新环境: test
conda create --name test python=3.7
pytorch包是安装在当前所在环境下的,需要在当前所在环境下删除
在my-rdkit-env环境下删除pytorch包
conda uninstall pytorch
经检查卸载成功
在my-rdkit-env环境下安装pytorch包
conda install pytorch==1.7.0 torchvision==0.8.0 torchaudio==0.7.0 cudatoolkit=10.0 -c pytorch
说明想要换pytorch版本是需要先卸载后安装的
想到前面的重新安装conda可能也是需要先卸载再安装的
我的天呐!!!好像从一开始就搞错了一件事情,好像只是下载了anaconda并没有安装,我去!!!
按照之前的步骤重新安装anaconda ,提示该文件夹已经存在,(安装到了服务器 /home/zhangzimei 目录下)
运行如下刚刚下载的.sh文件,进行anaconda的安装(命令行输入ls可以找到这个文件)
bash Anaconda3-2020.07-Linux-x86_64.sh
还需要导入环境变量 ,vim ~/.bashrc 进入这个文件
vim ~/.bashrc
点击 i 可以对这个文件进行编辑
在文件末尾加入语句
export PATH=/home/user_name/anaconda3/bin:$PATH
按下Esc 退出编辑模式
输入 :wq 写入并退出
其他常用的命令:
:wq! 是写入并强制退出
:w 保存但不退出(常用)
:w! 若文件属性为『只读』时,强制写入该档案
:q 离开 vi (常用)
:q! 若曾修改过档案,又不想储存,使用 ! 为强制离开不储存档案
:e! 将档案还原到最原始的状态!
更新配置文件
source ~/.bashrc
完成之后发现还是不能用,pytorch无法安装,报错好像是找不到匹配的包
尝试安装2020.07版本的
安装过程中提示 已经存在anaconda3文件夹(由于刚刚安装过了)
使用命令:
bash Anaconda3-2020.07-Linux-x86_64.sh -u
即可解决这个问题
这次安装过程中发现之前操作有误:忘记改加入语句export PATH=/home/user_name/anaconda3/bin:$PATH 中的user_name改为zhangzimei
这可能就是之前一直不成功的原因
还有需要注意的一点是anaconda配置好以后自动退回到base,所有环境的conda版本都变为了新安装的这个版本,说明所有的环境使用的conda是一个
接下来安装pytorch
提示10.0那里错了,说明不能简单地修改那里
又修改回10.1进行尝试 ,安装成功,可以导入,但是torch.cuda.is_available()时,是False
卸载以后,重新安装,cudatoolkit=9.2,终于是True了!!!太不容易了!
最后在gpu2上面都安装好了,可以使用了,但是v100不能使用,因为输入jupyter notebook时不能够弹出X-manager 之后再想办法解决吧,可以先使用gpu2
标签:cudatoolkit,channels,pytorch,conda,anaconda,安装 来源: https://blog.csdn.net/m0_47163076/article/details/116982261