TransposonPSI——转座子分析的入门自学
作者:互联网
最近需要做转座子分析,查找发现可以使用 TransposonPSI 来进行分析。但是登陆官网,该软件 update 时间为 2013 年,但是因为时间紧迫,暂时还没有进行其他方法的调研,所以先选用该软件进行了分析。
一、TransposonPSI 安装及使用
1. TransposonPSI 安装
官网: http://transposonpsi.sourceforge.net
下载地址:https://sourceforge.net/projects/transposonpsi/
压缩包非常小,只有 10M 左右,解压后修改主角本 transposonPSI.pl 中三个软件的路径(blastall, formatdb, blastpgp),即可食用。
目录结构:
README docs/ PerlLib/ scripts/ transposon_ORF_lib/ transposon_PSI_LIB/ misc/ transposonPSIcreate/ TransposonWeb/ transposonPSI.pl
test/
2. TransposonPSI 使用入门
直接进入 test 目录,执行 runMe.sh 即可进行测试,非常简单。查看 runMe.sh 发现,输入文件是我们需要进行分析的数据序列,nuc 表示核酸序列,prot 表示蛋白序列。
if [ -e target_test_genome_seq.fasta.gz ] && ! [ -e target_test_genome_seq.fasta ] then gunzip target_test_genome_seq.fasta.gz fi ../transposonPSI.pl target_test_genome_seq.fasta nucrunMe.sh
二、TransposonPSI 流程解读
对 transposonPSI.pl 进行 Linux 脚本复现
cd /Transposon/div_step/ if [ -d tmp ] then rm -rf tmp fi mkdir tmp cd tmp ln -s ../target_test_genome_seq.fasta /software/blast-2.2.26/bin/formatdb -i target_test_genome_seq.fasta -p F cd /Transposon/div_step/tmp TPSI_list=( cacta DDE_1 gypsy hAT helitron ISa ISb isc1316 line ltr_Roo mariner_ant1 mariner MuDR P_element piggybac TY1_Copia TyrRecombinaseCrypton ) for int in {0..16} do name=${TPSI_list[$int]} /software/blast-2.2.26/bin/blastall -i /Transposon/TransposonPSI_08222010/transposon_PSI_LIB/$name.refSeq -d target_test_genome_seq.fasta -p psitblastn -R /Transposon/TransposonPSI_08222010/transposon_PSI_LIB/$name.chk -F F -M BLOSUM62 -t -1 -e 1e-5 -v 10000 -b 10000 >target_test_genome_seq.$name.psitblastn /Transposon/TransposonPSI_08222010/scripts/BPbtab </Transposon/div_step/tmp/target_test_genome_seq.$name.psitblastn> /Transposon/div_step/tmp/target_test_genome_seq.$name.psitblastn.btab done cat /Transposon/div_step/tmp/*btab | sort -rn -k13 >/Transposon/div_step/target_test_genome_seq.TPSI.allHits cd /Transposon/div_step/ perl /Transposon/TransposonPSI_08222010/scripts/TBLASTN_hit_chainer.pl target_test_genome_seq.TPSI.allHits btab >target_test_genome_seq.TPSI.allHits.chains perl /Transposon/TransposonPSI_08222010/scripts/TPSI_btab_to_gff3.pl target_test_genome_seq.TPSI.allHits.chains >target_test_genome_seq.TPSI.allHits.chains.gff3 perl /Transposon/TransposonPSI_08222010/scripts/TBLASTN_hit_chainer_nonoverlapping_genome_DP_extraction.pl target_test_genome_seq.TPSI.allHits.chains >target_test_genome_seq.TPSI.allHits.chains.bestPerLocus perl /Transposon/TransposonPSI_08222010/scripts/TPSI_chains_to_gff3.pl target_test_genome_seq.TPSI.allHits.chains.bestPerLocus >target_test_genome_seq.TPSI.allHits.chains.bestPerLocus.gff3work.sh
1. 格式化序列数据库
这是 blast 比对的首要步骤,这里我就不多介绍了,详细的参数和使用说明很多大佬都有介绍,使用时百度即可。
/software/blast-2.2.26/bin/formatdb -i target_test_genome_seq.fasta -p F
2. 数据库列表准备
TPSI_list=( cacta DDE_1 gypsy hAT helitron ISa ISb isc1316 line ltr_Roo mariner_ant1 mariner MuDR P_element piggybac TY1_Copia TyrRecombinaseCrypton )TPSI_list
以上列表为各类转座子名称,它们存在于 transposon_PSI_LIB/ 目录中,每一种数据库有三种格式:refSeq,chk,chkp
3. 序列与各数据库进行比对
/software/blast-2.2.26/bin/blastall -i /Transposon/TransposonPSI_08222010/transposon_PSI_LIB/$name.refSeq -d target_test_genome_seq.fasta -p psitblastn -R /Transposon/TransposonPSI_08222010/transposon_PSI_LIB/$name.chk -F F -M BLOSUM62 -t -1 -e 1e-5 -v 10000 -b 10000 >target_test_genome_seq.$name.psitblastn
特殊参数
-R PSI-TBLASTN checkpoint file [File In] Optional
4. BPbtab
/ifs/TJPROJ3/HWAS/USER/uxue/Research/Transposon/TransposonPSI_08222010/scripts/BPbtab </ifs/TJPROJ3/HWAS/USER/uxue/Research/Transposon/div_step/tmp/target_test_genome_seq.$name.psitblastn> /ifs/TJPROJ3/HWAS/USER/uxue/Research/Transposon/div_step/tmp/target_test_genome_seq.$name.psitblastn.btab
标签:入门,seq,Transposon,TransposonPSI,genome,test,转座子,target 来源: https://www.cnblogs.com/Shinamy/p/10956849.html