关于SailVina中蛋白质的下载与受体提取的使用介绍
作者:互联网
一、蛋白质的批量下载
步骤1:进入PDB蛋白质结构数据库
官网,点击PDB蛋白质结构数据库官网
- 图例:
步骤2:点击左侧Download
选项,进入下载页面,或直接点击下载页面
- 图例:
步骤3:批量下载pdb文件
-
批量下载文件需按照指定格式在下载页面的输入框输入PDB的ID.
- 例如:4hhb,108d
注意:
ID之间以英文逗号
隔开小技巧:
在进行批量文件下载时,拿到的PDB文件ID可能并不是需要的以英文逗号隔开的格式,那么就需要进行调整。为了快速,以及后续操作的便捷,这里推荐使用vscode这款代码编辑器进行批量编辑.
图例
:快键键:Ctrl + Shift 可以同时选中多行进行操作,其他操作如批量修改大小写,批量替换等可自行查询,不再赘述.
-
文件下载
- 文件下载需要注意下载文件的格式。
- 在蛋白质较多的时候,最后生成过个压缩包,需逐个点击下载
- 步骤图例
-
文件批量减压
-
须知
上一步下载到的是多个压缩包,需要对其进行减压处理。当然这里需要进行两次减压,因为这些zip压缩格式的文件里存放的是gz压缩格式的文件,所以需要两次批量减压缩。 -
须知
全部减压完成后等到的文件后缀名为.pdb1,而我们最终想要得到的是以**.pdb**结尾的文件,那么就需要批量修改文件后缀名(如果电脑没有显示文件的后缀名,可通过点击此处教程设置) -
批量减压脚本编写
这里需要使用windows的批处理程序进行处理,可以在网上找到代码,稍作修改便可以使用.可以使用如下代码:@echo off set WinRAR="C:\Program Files\WinRAR\WinRAR.exe" for /r . %%a in (*.rar *.zip *.gz) do ( cd "%%~pa" %WinRAR% x -ad -y "%%a" del "%%a" )
提示:
由于每个人使用的压缩软件不同,所以上述代码中set WinRAR="C:\Program Files\WinRAR\WinRAR.exe"
这行代码,将后面的C:\Program Files\WinRAR\WinRAR.exe
,改为你的压缩软件.exe执行文件所在的路径,比如我的可以做如下修改:@echo off set WinRAR="C:\Program Files\7-Zip\7z.exe" for /r . %%a in (*.rar *.zip *.gz) do ( cd "%%~pa" %WinRAR% x -ad -y "%%a" del "%%a" )
-
脚本的执行
在下载的PDB文件压缩包所在文件夹下新建文本文件
,然后编辑
,将上述脚本输入保存
,然后修改文件后缀名为.bat
,双击运行
即可 -
步骤图例
:
-
-
批量修改文件后缀为.pdb
上面步骤减压完成后文件后缀为**.pdb1**,需要将其修改为**.pdb**。与上面批量减压一样采用批处理脚本,在当前文件夹
下按照上述步骤建立以下代码的脚本双击运行即可.
ren *.* *.pdb
图例
二、批量准备受体
操作前须知
- 由于SailVina版本不同,老版本没有批量受体提取的功能,所以推荐下载百度网盘,提取码:e4ss
- 准备受体具体步骤可参考软件作者的github网址SailVina使用
步骤1 准备受体
-
打开软件,在
选择多个受体
弹出的对话框中选择下载好的**.pdb**文件所在的文件夹,设置好受体输出路径
后点击准备受体
,然后等待完成即可,耗费的时间视数据量而定. -
图例:
步骤2 将生成的受体放入对应一PDB的ID为名的文件夹中
操作前须知:目前生成的受体都是以PDB的ID为文件名,以**.pdbqt为后缀。而且全部放在同一个文件夹下。现在需要批量新建各自的文件夹,如6h06.pdbqt则放入文件名为6h06的文件夹中。放入各自的文件夹中还需要将所有的受体统一命名为preped.pdbqt**,下面便是完成这些操作的具体步骤:
-
批量新建文件夹
md 2hlz 2olm 2qq8 2r2o 2w2j 3eo3 3fk2 3g2g 3h6n 3hm5 3hm6 3hzj 3iez 3iug 3lx7 3me9 3mpx 3qby 3qii 3qij 3r90 3ray 3tf2 3tug 3uxg 3wxv 4e74 4fo9 4i79 4juy 4lg7 4lg8 4pxw 4q94 4qn1 4qq4 4qqi 4r3h 4rci 4rcj 4y3k 4ywq 4z0o 4z30 5df6 5epj 5eq0 5j39 5lpu 5mg7 5t1i 5tee 5tef 5w9s 5wch 5wp3 6asd 6bc9 6bhg 6bhh 6c1t 6c2f 6cc8 6ccg 6ccr 6cd8 6cdc 6cdg6ckn 6fft 6glc 6nfx 6oea 6ogk 6oov 6qw6 6qzp 6sgc 6u2l 6v2r
上面的代码中,
md
代表make directory,后面全部为要新建的文件夹的名字,需要以空格隔开,如前面所讲,编辑完成后,修改文件后缀名为**.bat**,然后双击运行即可,如下图: -
将对应文件存放到对应文件夹下
move 5god.pdbqt 5god move 4dck.pdbqt 4dck move 5q93.pdbqt 5q93 move 6bhh.pdbqt 6bhh move 2w8p.pdbqt 2w8p move 5nmd.pdbqt 5nmd move 2cbl.pdbqt 2cbl move 3o77.pdbqt 3o77 move 4dy7.pdbqt 4dy7 move 5gtc.pdbqt 5gtc move 2r24.pdbqt 2r24 move 5q32.pdbqt 5q32 move 6cd8.pdbqt 6cd8 move 4i5n.pdbqt 4i5n move 3qb5.pdbqt 3qb5 move 5cor.pdbqt 5cor move 4rly.pdbqt 4rly move 4tu6.pdbqt 4tu6 move 2hhl.pdbqt 2hhl move 5u30.pdbqt 5u30 move 4grz.pdbqt 4grz move 6qfi.pdbqt 6qfi move 3pdv.pdbqt 3pdv move 3ov1.pdbqt 3ov1 move 6bt1.pdbqt 6bt1 move 3lck.pdbqt 3lck
上面的代码
move
代表移动,下一个代表要移动的文件,最后一项代表要移动到的文件路径。(与前面操作类似,不做演示) -
批量修改文件名
ren 5god\5god.pdbqt preped.pdbqt ren 4dck\4dck.pdbqt preped.pdbqt ren 5q93\5q93.pdbqt preped.pdbqt ren 6bhh\6bhh.pdbqt preped.pdbqt ren 2w8p\2w8p.pdbqt preped.pdbqt ren 5nmd\5nmd.pdbqt preped.pdbqt ren 2cbl\2cbl.pdbqt preped.pdbqt ren 3o77\3o77.pdbqt preped.pdbqt ren 4dy7\4dy7.pdbqt preped.pdbqt ren 5gtc\5gtc.pdbqt preped.pdbqt ren 2r24\2r24.pdbqt preped.pdbqt ren 5q32\5q32.pdbqt preped.pdbqt ren 6cd8\6cd8.pdbqt preped.pdbqt ren 4i5n\4i5n.pdbqt preped.pdbqt ren 3qb5\3qb5.pdbqt preped.pdbqt ren 5cor\5cor.pdbqt preped.pdbqt ren 4rly\4rly.pdbqt preped.pdbqt ren 4tu6\4tu6.pdbqt preped.pdbqt ren 2hhl\2hhl.pdbqt preped.pdbqt ren 5u30\5u30.pdbqt preped.pdbqt ren 4grz\4grz.pdbqt preped.pdbqt ren 6qfi\6qfi.pdbqt preped.pdbqt ren 3pdv\3pdv.pdbqt preped.pdbqt ren 3ov1\3ov1.pdbqt preped.pdbqt ren 6bt1\6bt1.pdbqt preped.pdbqt ren 3lck\3lck.pdbqt preped.pdbqt
上面代码
ren
代表rename即重名名的意思,第一行的意思就是将文件夹5god下的名为5god.pdbqt的文件的名字重命名为preped.pdbqt,每一行意思同理,不在赘述,同样不做演示.
三、总结
每个人对电脑的熟悉程度不同,会导致耗费的时间不同。上面演示的都是在我电脑上的例子,具体出现一些我未提到的情况还需自己解决。
补充:
在准备受体的时,大量的数据中会有一些同源的蛋白质不能成功获取。那么在将对应文件放入文件夹
中时会有空的文件夹出现,这些就代表没有成功的受体,要找出这些空的文件夹,然后手动重新单个进行操作,这里提供一个获取空文件夹的工具,文件下载
标签:文件,提取,preped,move,pdbqt,文件夹,受体,ren,SailVina 来源: https://blog.csdn.net/qq_42233378/article/details/112377426