蛋白质统计偶联分析(Statistical coupling analysis,SCA)---模块一报错问题解决
作者:互联网
蛋白质中氨基酸位点之间的偶联对其功能和结构非常重要,如果采用生物信息学的方法进行氨基酸位点的偶联分析,可以克服传统生物学实验方法难以从宏观角度进行系统的功能分析的局限,这就是所谓的蛋白质统计偶联分析(https://ranganathanlab.gitlab.io/pySCA/SCA_betalactamase/)
然而在运行第一行代码时,一个新手可能会想当然地输入要分析的蛋白序列,结果就会出现下图的报错,其根本原因是文件类型出错。
通过阅读网站给出的补充信息,我们知道annotateMSA(annotate multiple sequence analysis)模块,输入的是我们要分析的目的蛋白家族同源比对注释文件,是一个家族蛋白集合,而不是目的蛋白氨基酸文件,下图是在PDB数据库查找目的蛋白同源家族的注释序列号(https://www.pdbus.org/)。如1RC2蛋白的蛋白家族注释编号为PF00230。
拿到要分析蛋白的蛋白家族注释编号后,在Pfam网站查找该编号,点击Alignments,会出现一以下界面,在Formant an alignment下选择Full,格式为fasta,gaps根据需求选择,选择download后点击generate生成PF00230_full.txt文件。使用此文件运行第一步程序就可以了。
运行第二步程序除了第一步生成的.an文件外,还需要pdb格式的目的蛋白文件,这个还是在pdb网站输入目的蛋白pdbID或者通过查找氨基酸序列来找到目的蛋白的pdbID,进一步下载该目的蛋白的pdb文件到指定的工作路径。这个比较简单就不赘述了。
下面放几张分析的图,看是不是显得高大上
。
关注不迷路
推荐一下个人构建的宏基因组在线分析网站http://www.xiaohongwgsa.top/
标签:分析,文件,coupling,目的,SCA,偶联,报错,pdb,蛋白 来源: https://blog.csdn.net/qq_23341021/article/details/123611837