首页 > TAG信息列表 > FASTA

原来sed不支持非贪婪匹配

场景 从GISAID上面批量下载下来的序列id很长,格式如下: 太长了,并且makeblastdb的时候-parse_seqids参数会导致报错,大概是长度太长不符合要求无法处理之类的。 不作处理去掉-parse_seqids也没问题,不过怕后期引起不必要的麻烦,这个时候就需要处理一下这些id sed 想着直接sed处理一下就

fasta AF2建模后处理

for fasta in *fasta; do if [ -e ~/Workfile/Alphafold2_Output/${fasta%.fasta}/ranked_0.pdb ];then echo $fasta; cp ~/Workfile/Alphafold2_Output/${fasta%.fasta}/ranked_0.pdb ${fasta%.fasta}.pdb; rm -rf ~/Workfile/Alphafold2_Output/${fasta%.fasta}/msas; rm ~/

python中 pysam包FastxFile函数

  001、读取fasta文件 root@PC1:/home/test# ls a.fasta root@PC1:/home/test# cat a.fasta ## 测试数据 >Rosalind_1 ATCCAGCT >Rosalind_2 GGGCAACT >Rosalind_3 ATGGATCT >Rosalind_4 AAGCAACC >Rosalind_5 TTGGAACT >Rosalind_6 ATGCCA

python 中实现按照 fasta文件的scaffold进行排序

  001、 方法1 root@PC1:/home/test# ls a.fasta test.py root@PC1:/home/test# cat test.py ## 测试程序 #!/usr/bin/python in_file = open("a.fasta", "r") dict1 = dict() for i in in_file: i = i.strip() if i[0] == &qu

python中实现依据序列名称排序并输出

  001、 (base) root@PC1:/home/test2# ls a.fasta test.py (base) root@PC1:/home/test2# cat a.fasta ## 测试fasta文件 >gene2 myc AGCTGCCTAAGC GGCATAGCTAATCG >gene1 jun ACCGAATCGGAGCGATG GGCATTAAAGATCTAGCT >gene4 malat1 AGGCTAGCGAG GCGC

python中提取原始序列名字第一个空格前的名字作为的序列名字,输出到屏幕

  001、 (base) root@PC1:/home/test2# ls a.fasta test.py (base) root@PC1:/home/test2# cat a.fasta ## 测试fasta文件 >gene1 myc AGCTGCCTAAGC GGCATAGCTAATCG >gene2 jun ACCGAATCGGAGCGATG GGCATTAAAGATCTAGCT >gene3 malat1 AGGCTAGCGAG GCGCGAG GATT

python 学习之 fasta/fastq 处理利器--pyfastx

  001、 fasta序列迭代   (base) root@PC1:/home/test2# cat a.fasta ## 测试fasta文件 >gene1 myc AGCTGCCTAAGC GGCATAGCTAATCG >gene2 jun ACCGAATCGGAGCGATG GGCATTAAAGATCTAGCT >gene3 malat1 AGGCTAGCGAG GCGCGAG GATTAGGCG >>> import pyfastx

linux 中shell统计fasta文件中每条染色体上的碱基数目

  001、 root@DESKTOP-1N42TVH:/home/test5/test/test# ls test.fa root@DESKTOP-1N42TVH:/home/test5/test/test# cat test.fa >Chr1 ACCCTAAACCCTAAACCCTAAACCCTAAACCCTAAACCCTAACCCTAAAC ACCCTAAACCCTAAACCCTAAACCCTAAACCCTAAACCCTAACCCTAAAC >Chr2 ACCCTAAACCCTAAAC

python 中实现将fasta文件中碱基以每行指定数目输出

  001、测试数据 [root@PC1 test2]# ls a.fa test.py [root@PC1 test2]# cat a.fa ## 测试数据 >OR4F5_ENSG00000186092_ENST00000641515_61_1038_2618 CCCAGATCTCTTCAGTTTTTATGCCTCATTCTGTGAAAATTGCTGTAGTCTCTTCCAGTTATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACGAGTGA

python GISAID 网站爬虫实践:fasta文件获取

python GISAID 网站爬虫实践:fasta文件获取   临近毕业,老师交给我的爬虫任务已经结束。反正留在电脑里也没用,不如发出来造福大家。   简介: GISAID是流行病毒共享组织,网址“www.gisaid.org”,服务器位于美国洛杉矶、旧金山等地, 需要教育邮箱注册账号才能访问其数据。它的网站比较老

linux shell中将fasta文件按照每行指定碱基数输出

1、测试数据 root@PC1:/home/test# ls record.txt test.fa root@PC1:/home/test# cat test.fa >OR4F29_ENSG00000284733_ENST00000426406_20_955_995 AGCCCAGTTGGCTGGACCAATGGAT GGAGAGAATCACTCAGTGGTATCTGAG TTTTTGTTTCTGGGACTC >OR4F16_ENSG00000284662_ENST00000332831_

【fastqe】有趣的表情包版fastqc

FASTQ with Emoji = FASTQE

seqkit | 序列处理利器 | fastq | fasta

有时候需要个性化处理原始序列,自己写python脚本太慢,且速度太慢,可以用seqkit这个工具,开发得不错。   比如提取10x genomics的barcode,fastq里的前16个碱基。 seqkit subseq Vcl-YFP-CNCC_3_S35_L004_R2_001.fastq.gz -r 1:16 > tmp.fastq      参考: fasta/fq文件处理万能工具

AlphaFold2初体验

2021SC@SDUSC 文章目录 前言一、Google Colab介绍二、代码地址三、代码分析四、效果展示 前言 今天尝试在google colab快速跑通Alphafold2的简易版,进行蛋白质预测初体验 一、Google Colab介绍   Google Colab是一个免费的 Jupyter 笔记本环境,不需要进行任何设置就可

Mothur2_减少测序和PCR错误

本人在读研究生,方向环境微生物。之前在学习生物信息分析过程中在网络上四处奔走获取相关学习资料与解决问题,好生麻烦。于是,我就把与同学一起做的一些生物信息分析相关教程与经验总结搬运到这个CSDN这个大平台上来,希望能够与大家一起学习讨论。班门弄斧,大神见文多指教,抱拳抱拳抱

Mothur3_处理改进的序列

本人在读研究生,方向环境微生物。之前在学习生物信息分析过程中在网络上四处奔走获取相关学习资料与解决问题,好生麻烦。于是,我就把与同学一起做的一些生物信息分析相关教程与经验总结搬运到这个CSDN这个大平台上来,希望能够与大家一起学习讨论。班门弄斧,大神见文多指教,抱拳抱拳抱

Mothur2进阶_Mothur扩增子基因序列_数据预处理

本人在读研究生,方向环境微生物。之前在学习生物信息分析过程中在网络上四处奔走获取相关学习资料与解决问题,好生麻烦。于是,我就把与同学一起做的一些生物信息分析相关教程与经验总结搬运到这个CSDN这个大平台上来,希望能够与大家一起学习讨论。班门弄斧,大神见文多指教,抱拳抱拳抱

模拟一个简单计算器_阅读模拟器的简单介绍

  模拟一个简单计算器 Read simulators are widely being used within the research community to create synthetic and mock datasets for analysis. In this article, I will introduce some recently proposed, commonly used read simulators. 阅读模拟器在研究社区中被广

【Bioinfo Blog 005】【Python Code 001】——FASTA文件处理(未完)

格式说明 FASTA格式是一种基于文本用于表示核苷酸序列(或氨基酸序列)的格式。碱基对(或氨基酸)用单个字母来编码,且允许在序列前添加序列名及注释。 >gi|46575915|ref|NM_008261.2| Mus musculus hepatic nuclear factor 4, alpha (Hnf4a), mRNA GGGACCTGGGAGGAGGCAGGAGGAGGGCGGG

perl 小练习

1.以scaffold.fasta作为输入文件,计算GC含量以及N50和N90 2.根据给定的基因组scaffold.fasta文件和相对用的基因注释gff文件提取基因的cds区域,并以每行60个碱基的格式输出到cds.fasta文件中 3.以cds.fasta作为输出文件,将其翻译成蛋白质序列并以每行60个氨基酸的格式输出到pep.fa

基因组注释之软件使用

1、RepeatMasker 1.1、输入 输入格式为fasta序列,不接受其它 GenBank, Staden,等格式。它既可以处理一个批文件(一个文件包含许多条序列),也可以批处理许多文件(每个文件含有一条序列)。 RepeatMasker *.fasta  该命令将mask当前目录下所有的以.fasta文件结尾,并为每个文件提供

从nucleotide数据库中提取给定id的序列

1,返回Fasta类型结果:    2,返回XML格式结果:  

「三代组装」使用Pilon对基因组进行polish

对初步组装进行polish   以FASTA和BAM文件作为输入,根据比对结果对输入的参考基因组进行提高,包括 单碱基差异 小的插入缺失(indels) 较大的插入缺失或者block替换 填充参考序列中的N 找到局部的错误组装 最后输出polish后的FASTA文件   参考来源: https://www.jianshu.com/p/cce

NECAT: Nanopore数据的高效组装工具

文章首发在个人博客: NECAT: Nanopore数据的高效组装工具 NECAT是肖传乐老师团队开发的一个针对Nanopore数据组装的软件,目前该工具尚未发表,除了https://github.com/xiaochuanle/NECAT有软件的介绍外,暂时没有中文资料介绍NECAT的使用。 太长不看的结论: Nanopore的组装推

linux – 在fasta文件中选择序列超过300 aa,“C”至少出现4次

我有一个包含蛋白质序列的fasta文件.我想选择超过300个氨基酸的序列,半胱氨酸(C)氨基酸出现超过4次. 我用这个命令来选择超过300 aa的序列: cat 72hDOWN-fasta.fasta | bioawk -c fastx 'length($seq) > 300{ print ">"$name; print $seq }' 一些序列示例: >jgi|Triasp1|21661