编程语言
首页 > 编程语言> > Python编辑距离

Python编辑距离

作者:互联网

我是一名使用Biopython分析基因突变的分子生物学家,我的问题是:

我有一个包含许多不同序列(百万)的文件,其中大多数是重复的.我需要找到重复项并丢弃它们,并保留每个唯一序列的一个副本.我打算使用模块editdist来计算它们之间的编辑距离,以确定重复项是哪些,但是editdist只能使用2个字符串,而不是文件.

任何人都知道如何将模块与文件而不是字符串一起使用吗?

解决方法:

假设您的文件仅由每行一个序列组成的序列组成,我建议以下几点:

seq_file = open(#your file)

sequences = [seq for seq in seq_file]

uniques = list(set(sequences))

假设您有足够的记忆力.几百万?

预计到达时间:

正在读取上面的评论(但没有评论特权)-假设任何重复项的序列ID都相同,那么它将起作用.如果重复的序列可以具有不同的序列ID,则将知道哪个先出现以及文件中它们之间是什么.

标签:biopython,edit,distance,sequence,python
来源: https://codeday.me/bug/20191101/1981046.html