生物信息学格式解读
作者:互联网
随笔分类 - 生物信息学格式解读
- minimap2的结果处理
该文被密码保护。
posted @ 2019-02-18 23:01 djx571 阅读(15) | 评论 (0) 编辑
- 常用数据库ID格式
摘要: 转自:http://www.biotrainee.com/thread-411-1-1.html 常用数据库 ID Ensembl stable IDs Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不阅读全文
posted @ 2018-09-12 19:49 djx571 阅读(57) | 评论 (0) 编辑
- blast及其格式输出简介
摘要: 1)blast产生背景 双序列比对可以采用是基于动态规划算法的Needleman-Wunsch(NW)和Smith-Waterman algorithm(SW)算法,虽然精度高,但计算消耗大。当与数据库比对的时候,该算法就显得不切实际。因此TASTA,blast采用启发式算法使得通过大幅度丢失灵敏度阅读全文
posted @ 2018-08-21 11:54 djx571 阅读(177) | 评论 (0) 编辑
- vcf格式简介
摘要: 1)背景 伴随着大规模的基因分型及测序工程的产生(例如1000 Genomes Project),之前的信息贮存格式例如gff文件它记录了每一个基因的详细信息,其中许多基因信息在基因组之间是共享的,而我们需要记录的仅仅是不同基因组之间变异的地方,因此这些格式会显得格外冗余。这就迫切需要一种新的格式来阅读全文
posted @ 2018-08-20 11:51 djx571 阅读(61) | 评论 (0) 编辑
- bed文件格式解读
摘要: 1)BED文件 BED 文件(Browser Extensible Data)格式是ucsc 的genome browser的一个格式 ,提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致(见下图)。 每条线的字段数目必须是任意单阅读全文
posted @ 2018-08-19 11:43 djx571 阅读(112) | 评论 (0) 编辑
- gff/gtf格式
摘要: 1)gff3及gtf2简介 一个物种的基因组测序完成后,需要对这些数据进行解读,首先要先找到这些序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析。gff/gtf是贮存这些注释信息的两种文件格式。 GFF(general feature forma阅读全文
posted @ 2018-08-18 16:36 djx571 阅读(1622) | 评论 (0) 编辑
- sam/bam格式
摘要: 1)Sam (Sequence Alignment/Map) 1) SAM 文件产生背景 随着Illumina/Solexa, AB/SOLiD and Roche/454测序技术不断的进步,各种比对工具产生,被用来高效的将reads比对到参考基因组。因为这些比对工具产生不同格式的文件,导致下游分析阅读全文
posted @ 2018-08-17 21:32 djx571 阅读(80) | 评论 (0) 编辑
- fasta/fastq格式解读
摘要: 1)知识简介 1.1)测序质量值 首先在了解fastq,fasta之前,了解一下什么是质量值。phred软件在对reads进行base calling的时候会给出每一个碱基的质量值,这个质量值的计算与测序预期错误率相关(estimated probability of error): 除此之外还有s阅读全文
posted @ 2018-08-17 16:16 djx571 阅读(1200) | 评论 (0) 编辑
- blat
摘要: 1) 产生背景 2002年的时候,随着人类基因组项目不断推进,需要将大量ESTs(300万) 及mouse基因组的reads (130万)比对到人类基因组来进行注释,而这项任务需要在2周内完成 (90 CPU Linux 集群),因为blast工具速度相对偏慢,结果也不易处理,无法提供intron 阅读全文
posted @ 2018-08-16 21:51 djx571 阅读(50) | 评论 (0) 编辑
标签:信息学,08,2018,解读,djx571,阅读,格式,posted 来源: https://blog.csdn.net/u010608296/article/details/90208222