首页 > TAG信息列表 > bioinformatics

生物信息学博士后招聘:香港浸会大学张璐博士和卞兆祥教授联合招聘

一、职位介绍 香港浸会大学下属中药创新药物研发中心计划招收生物信息学博士后1-2名,该职位工作将会由香港浸会大学计算机科学系张璐助理教授和中药创新药物研发中心主任卞兆祥教授和共同指导。 项目主要研究方向为(1)利用计算机和数学模型阐明肠道微生物组在人类健康和疾病中的作用;(2

BioPython:使用Entrez.esummary / Entrez.read跳过不良的GID

对不起,奇怪的标题. 我正在使用eSearch&电子摘要来自 登记号-> gID->税号 假设“登录号”是20个登录号的列表(我一次执行20个登录号,因为这是NCBI允许的最大值). 我做: handle = Entrez.esearch(db="nucleotide", rettype="xml", term=accessions) record = Entrez.read(handle) gi

java-生物信息学-需要获取ATOMS序列

我在BioJava中搜索一种方法,以从PDB文件中获取Atom序列. 我看了BioJava API,但对于getAtomSequence(),它捕获了氨基酸.我在BioJava中尝试了其他几种方法,但没有任何效果. 有人可以帮我吗? 谢谢解决方法:我解决了…有兴趣的解决方案: try{ PDBFileReader read=new PDBFileRe

c-blast无法创建单位计数容器

我建立一个爆炸的本地数据库.但是,当我运行blastn命令时,出现以下错误消息: T0 “/home/coremake/release_build/build/PrepareRelease_Linux64-Centos_JSID_01_250088_130.14.22.10_9008__PrepareRelease_Linux64-Centos_1448906370/c++/compilers/unix/../../src/algo/winmask/s

在目录中遍历文件,创建输出文件

我试图遍历特定目录(称为序列)中的每个文件,并对每个文件执行两个功能.我知道这些功能(“ blastp”和“ cat”行)可以工作,因为我可以在单个文件上运行它们.通常,我将使用特定的文件名作为查询,输出等,但是我试图使用变量,以便循环可以处理许多文件. (免责声明:我是编码的新手.)我认

python-修复pandas DataFrame中的索引列

我有一个带有以下数据的Pandas DataFrame(来自Jupyter Notebook的输出) 无论如何,我可以命名第一列吗?我无法访问它,因为它看起来像是行名列. 或者以其他方式提取第一个未修饰的列,并使用[‘accessions’]和[‘symbols’]创建一个新的数据框解决方法:pd.DataFrame.rename_axis 那是

python-来自图的微笑

是否存在将图(或邻接矩阵)转换为SMILES字符串的方法或程序包? 例如,我知道原子为[6 6 7 6 6 6 6 8 8]([C C N C C C C O]),并且邻接矩阵为 [[ 0., 1., 0., 0., 0., 0., 0., 0.], [ 1., 0., 2., 0., 0., 0., 0., 1.], [ 0., 2., 0., 1., 0., 0., 0., 0.],

如何在python中编辑文本(.fastq)文件

我有一个类似下面的小示例的文件.每4行与一个ID相关.每个ID的第二行都以N开头.我想在这些行的开头处删除N,其他所有内容都将保持不变. 我想在python中做到这一点.你知道怎么做吗? 例: @SRR2163140.1 HISEQ:148:C670LANXX:3:1101:1302:1947 length=50 NGCGACCTCAGATCAGACGTGGCGACC +S

在python中过滤CSV文件

我已经下载了csv file,它创建了一个基因信息电子表格.重要的是在HLA- *列中有基因信息.如果基因的分辨率太低,例如DQB1 * 03,则应删除该行.如果数据分辨率过高,例如DQB1 * 03:02:01,则需要删除末尾的:01标签.因此,理想情况下,我希望蛋白质的格式为DQB1 * 03:02,以便在DQB1 *之后具有两

Bioinformatics Data Skills by Oreilly学习笔记-12

Chapter12 Bioinformatics Shell Scripting, Writing Pipelines, and Parallelizing Tasks We’ll see how to write rerunnable Bash shell scripts, automate fileprocessing tasks with find and xargs, run pipelines in parallel, and see a simple makefile. Basic B

在Python中使用ASCII文件中的注释查找/替换子字符串

在我正在研究的生物信息学项目中,我遇到了一些编码问题.基本上,我的任务是从数据库中提取基序序列并使用该信息来注释序列比对文件.对齐文件是纯文本,因此注释不会是任何复杂的,最好只是用对齐文件本身中的星号替换提取的序列. 我有一个脚本扫描数据库文件,提取我需要的所有序列,并

Biopython:如何避免蛋白质的特定氨基酸序列,以便绘制Ramachandran图?

我写了一个python脚本来绘制泛素蛋白的’Ramachandran Plot’.我正在使用biopython.我正在使用pdb文件.我的脚本如下: import Bio.PDB import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt phi_psi = ([0,0]) phi_psi = np.array(phi_psi) pdb1 ='/home

Python:使用位.用零和1编码核苷酸

我想在Python中使用位编码来编码核苷酸’A’,’G’,’C’和’T’.例如: 'A' = 00 'G' = 01 'C' = 10 'T' = 11 为了建立一个包含k-mers的巨大词典,如: dic = { 'ATGACTGACT':231, 'AAATGACGGAC':500 ... } 我认为这可以减少该字典所需的内存量,因为’ATGC’需要4个字节,但同一个

linux – 在fasta文件中选择序列超过300 aa,“C”至少出现4次

我有一个包含蛋白质序列的fasta文件.我想选择超过300个氨基酸的序列,半胱氨酸(C)氨基酸出现超过4次. 我用这个命令来选择超过300 aa的序列: cat 72hDOWN-fasta.fasta | bioawk -c fastx 'length($seq) > 300{ print ">"$name; print $seq }' 一些序列示例: >jgi|Triasp1|21661

Bioinformatics Data Skills by Oreilly学习笔记-6

Chapter6 Bioinformatics Data Retrieving Bioinformatics Data Downloading Data with wget and curl Two common command-line programs for downloading data from the Web are wget and curl. Depending on your system, these may not be already installed; you’ll

python – 使用Bio.SeqIO编写单行FASTA

QIIME请求此(here)关于它作为输入接收的fasta文件: 该文件是FASTA文件,序列采用单行格式.也就是说,序列不会分成特定长度的多行,而是整个序列占据一行. Bio.SeqIO.write当然遵循format recommendations,并且每隔80个bps分割序列. 我可以写自己的作家来编写那些“单行”快速 – 但我

linux – 在该文件中的模式之前写入文件名

我有成千上万个类似的文件,我想在它们内部的模式之后写出各自的名字.例如: **文件1的名称是nexus0000 在文件里面有: >Pseudomonas_1M ATGATCCGCTTCGAGCAGGTCGGCAAACGCTATC >Pseudomonas_2M GTGAGCTTCGAGCAGGTCGGCGAGCCGCTATC 我想得到这个: nexus0000>Pseudomonas_1M ATGATCCGCTTC

科学计算的最佳Linux发行版?

我最近在家时买了一台用于科研的新笔记本电脑.该机配备Intel i7处理器,8核,4 GB RAM和Nvidia显卡(2 GB,Ivy Bridge).我最需要计算的程序是MATLAB和Python. 我试图安装Ubuntu(版本12.10和13.04),它们都很慢.当MATLAB使用1个核心100%时,整个操作系统就会冻结.什么都不能同时做.此外,图

python – 定义计算氨基酸相对频率的函数

我正在尝试计算给定DNA序列内的密码子频率. 例如: sequence = 'ATGAAGAAA' codons = ['ATG', 'AAG', 'AAA'] 密码子中的XX: frequency = codons.count(XX)/(codons.count(XX)+codons.count(XX2)+codons.count(XX3)) 请注意,XX2和XX3并不总是在序列中.一些密码子可能有也可能没有

如何为每个字符赋值并使用python或awk查找平均值?

我有一个文本文件,其中包含蛋白质序列(200个序列),如下所示. >ptn1 AAGHM >ptn2 MGLKKRR 我需要为seqence的每个字符提供以下值,并且必须找到每个序列的平均值. A= 0.2, G= 0.5, L=0.14, M= 0.70, R= 0.55, C=0.48, H= 1.00 , K=0.4 期望的输出 ptn1 - 0.52 ptn2 - 0.462

如何让COBRA工具箱在Linux下的MATLAB(如Ubuntu 14.04)中使用适当的SBML支持?

考虑这4个软件: 1)COBRA 2.05 2)LibSBML 5.10 3)MATLAB R2013a(也称为8.1,64位; MATLAB不再支持32位Linux) 4)64位Linux操作系统(如Ubuntu 14.04或最新的Mint但不限于它们) 介绍 COBRA工具箱是一个在MATLAB上运行的优化套件,旨在开发用于代谢网络建模的MATLAB代码.这种“网络”是一

python – 如何加速400万集交叉点?

我是一名缺乏经验的程序员,正在通过Python进行大量的生物信息学练习. 一个问题区域计算名称组之间的集合交集中的元素,以及计算在字典中的存储.每个列表有两个2000个名称组;名称组中的名称是物种的拉丁名称.例如: list__of_name_groups_1 = [ ['Canis Lupus', 'Canis Latrans']

python – 从距离矩阵计算亲和度矩阵

我使用clustal欧米茄获得500个蛋白质序列的距离矩阵(它们彼此同源). 我想使用亲和传播来聚类这些序列. 最初,因为我手工观察到距离矩阵只有0到1之间的值,0距离= 100%同一性,我推断我可以采取(1 – 距离)来获得亲和力. 我运行了我的代码,集群看起来很合理,我认为一切都很好……直到

在将大文件逐行读入Python2.7时使用内存

堆栈溢出, 我正在研究涉及一些大型文件(10-50Gb)的基因组学项目,我想将其读入Python 2.7进行处理.我不需要将整个文件读入内存,而是简单地逐行读取每个文件,执行一项小任务,然后继续. 我发现了类似的SO问题,并试图实现一些解决方案: Efficient reading of 800 GB XML file in Python

Python – 使用K-means进行聚类.某些列的方差为零

我有一个由~200个99×20频率组成的数据集,每列总和为1.我用热像图画了这些.每个阵列非常稀疏,每99个位置只有大约1-7 / 20个值非零. 但是,我想根据频率曲线的相似程度(最小欧氏距离或类似距离)对这些样本进行聚类.我已经将每个99×20阵列安排到一个1980×1阵列中,并将它们聚合成一