首页 > TAG信息列表 > biopython

Biopython | 计算蛋白质的接触图(contact map)

contact map 蛋白质接触图使用二元二维矩阵表示三维蛋白质结构的所有可能的氨基酸残基对之间的距离。  计算contact map 导入库 import pandas as pd import numpy as np from Bio import SeqIO import matplotlib.pyplot as plt import requests from sklearn.metrics imp

Python:安装Bio库不成功,出现ModuleNotFoundError: No module named 'Bio'

Bio库的安装并不是pip install bio,而是biopython。 ./anaconda3/bin/pip3 install biopython -i https://pypi.douban.com/simple 结果:  

Python 3.x-如何有效地将对象数组拆分为较小的批处理文件?

我对Python相当陌生,我试图将一个文本文件(其中条目由两行组成)拆分为max. 400个对象. 我正在使用的数据是FASTA格式(带有标头的纯文本,用于生物信息学)的数千个序列,其中的条目如下所示: >HORVU6Hr1G000325.5 PIPPPASHFHPHHQNPSAATQPLCAAMAPAAKKPPLKSSSSHNSAAGDAA >HORVU6Hr1G000

BioPython:使用Entrez.esummary / Entrez.read跳过不良的GID

对不起,奇怪的标题. 我正在使用eSearch&电子摘要来自 登记号-> gID->税号 假设“登录号”是20个登录号的列表(我一次执行20个登录号,因为这是NCBI允许的最大值). 我做: handle = Entrez.esearch(db="nucleotide", rettype="xml", term=accessions) record = Entrez.read(handle) gi

拉普拉斯平滑到Biopython

我正在尝试为我的Bioinformatics项目的Biopython朴素贝叶斯代码1添加Laplacian平滑支持. 我已经阅读了许多有关朴素贝叶斯算法和拉普拉斯平滑的文档,我想我有基本的想法,但是我无法将此代码与该代码集成在一起(实际上我看不到要添加1 -laplacian数的部分). 我对Python不熟悉,并且是

Python编辑距离

我是一名使用Biopython分析基因突变的分子生物学家,我的问题是: 我有一个包含许多不同序列(百万)的文件,其中大多数是重复的.我需要找到重复项并丢弃它们,并保留每个唯一序列的一个副本.我打算使用模块editdist来计算它们之间的编辑距离,以确定重复项是哪些,但是editdist只能使用2个

使用biopython从entrez获取基因序列

这就是我要做的. 我有一个基因名称列表,例如:[ITGB1,RELA,NFKBIA] 在biobio和entrez API教程中查找帮助时,我想到了: x = ['ITGB1', 'RELA', 'NFKBIA'] for item in x: handle = Entrez.efetch(db="nucleotide", id=item ,rettype="gb") record =

如何从efetch(Biopython,Entrez)中提取摘要?

我是python的新手,并希望使用bio软件包中的entrez系统从pubmed中提取摘要. 我得到了电子搜索,以提供我的UID(存储在my_list_ges中),也可以使用efetch下载条目.但是现在,结果是字典列表,条目看起来像字典,但我无法访问它们: Entrez.email= "my-email@provider.sth" handle=Entrez.ef

在Python中使用ASCII文件中的注释查找/替换子字符串

在我正在研究的生物信息学项目中,我遇到了一些编码问题.基本上,我的任务是从数据库中提取基序序列并使用该信息来注释序列比对文件.对齐文件是纯文本,因此注释不会是任何复杂的,最好只是用对齐文件本身中的星号替换提取的序列. 我有一个脚本扫描数据库文件,提取我需要的所有序列,并

Biopython:如何避免蛋白质的特定氨基酸序列,以便绘制Ramachandran图?

我写了一个python脚本来绘制泛素蛋白的’Ramachandran Plot’.我正在使用biopython.我正在使用pdb文件.我的脚本如下: import Bio.PDB import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt phi_psi = ([0,0]) phi_psi = np.array(phi_psi) pdb1 ='/home

Biopython本地BLAST数据库错误

我试图使用Biopython的NcbiblastxCommandline工具在“nr”数据库本地运行blastx但是我总是得到关于蛋白质数据库搜索路径的以下错误: >>> from Bio.Blast.Applications import NcbiblastxCommandline >>> nr = "/Users/Priya/Documents/Python/ncbi-blast-2.2.26+/bin/nr.pal" >>>

python – 使用Bio.SeqIO编写单行FASTA

QIIME请求此(here)关于它作为输入接收的fasta文件: 该文件是FASTA文件,序列采用单行格式.也就是说,序列不会分成特定长度的多行,而是整个序列占据一行. Bio.SeqIO.write当然遵循format recommendations,并且每隔80个bps分割序列. 我可以写自己的作家来编写那些“单行”快速 – 但我

如何为每个字符赋值并使用python或awk查找平均值?

我有一个文本文件,其中包含蛋白质序列(200个序列),如下所示. >ptn1 AAGHM >ptn2 MGLKKRR 我需要为seqence的每个字符提供以下值,并且必须找到每个序列的平均值. A= 0.2, G= 0.5, L=0.14, M= 0.70, R= 0.55, C=0.48, H= 1.00 , K=0.4 期望的输出 ptn1 - 0.52 ptn2 - 0.462

python – 如何扩展模糊的dna序列

假设你有一个像这样的DNA序列: AATCRVTAA 其中R和V是DNA核苷酸的模糊值,其中R代表A或G,V代表A,C或G. 是否有Biopython方法生成可由上述模糊序列表示的所有不同序列组合? 相反,输出将是: AATCAATAA AATCACTAA AATCAGTAA AATCGATAA AATCGCTAA AATCGGTAA 解决方法:也许是一种更短更快

如何在Cygwin上设置PYTHONPATH?

在Biopython安装说明中,它说如果Biopython不起作用我应该这样做: export PYTHONPATH = $PYTHONPATH’:/ directory / where / you / put / Biopython’ 我尝试在〜目录中使用Biopython目录的名称(或者通过〜目录的所有内容)在Cygwin中执行此操作,但是当我通过进入Python解释器并键入

BioPython:如何将氨基酸字母表转换为

在讨论如何使用Bio.SeqIO.parse()导入序列数据时,BioPython食谱说明: There is an optional argument alphabet to specify the alphabet to be used. This is useful for file formats like FASTA where otherwise Bio.SeqIO will default to a generic alphabet. 如何添加此可

使用Biopython(Python)从FASTA文件中提取序列

好的,我需要使用python(biopython,http://biopython.org/DIST/docs/tutorial/Tutorial.html)从FASTA文件中提取序列的一部分 我需要从每个序列中获取前10个碱基并将它们放在一个文件中,保留FASTA格式的序列信息.最糟糕的是,如果没有办法保留序列信息,我可以使用基数.所以这是一个例