UCSC浏览器的可视化
作者:互联网
引言
在生信的研究过程中,数据的展示往往是非常重要的一步,而选择以哪种方式展示更是令人头疼。在这里,我们介绍UCSC浏览器中实现可视化的过程,可以在参考基因组上展示出数据的信息,如感兴趣的基因附近的甲基化值、表达值或差异的区域等,当然更重要的是方便自己对数据的了解。
1 创建一个项目
地址:http://genome.ucsc.edu/
首先点击My Data中的My Sessions进入页面。
新建一个项目。
点击新建的项目进入可视化的页面,在图片的下方点击add custom tracks就是上传自己的数据了。
也可以设置数据类型的物种,基因组和参考基因组的信息,参考基因组信息如果需要转换,可以通过LiftOver来实现(hg19与hg38的相互转换)。
1 数据的上传
浏览器支持bigBed, bigChain, bigGenePred, bigMaf, bigPsl, bigWig, barChart,bigBarChart, BAM, VCF, BED, BED detail, bedGraph, broadPeak, CRAM, GFF, GTF,MAF, narrowPeak, Personal Genome SNP, PSL, 或 WIG等文件格式的上传,主要分为通过网页直接提交和服务器的URL链接上传。
由于数据类型较多,通过可以直接上传的BED文件为例介绍:
BED文件由3列必需的信息和9个额外可选择的信息组成,三列必须信息就是:染色体,起始位置,终止位置。其他9个额外的信息如下:
BED文件的第一行是对这个条目的设置,包括名字、描述和颜色等,Color的选择按照RGB颜色的参数可以选择不同的颜色。上传BED文件的数据是不能体现出数据的变化、高低等现象,只能显示数据的区域信息,因此需要更高级的设置,即设置区域的颜色来区别数据的大小等。这个功能就是BED文件的第9列itemRgb选项,需要注意的是,如果要使用第9列的信息则前面的几列信息也要存在不能空缺。
保存后点击go进行在基因组上的可视化,可以寻找感兴趣区域的数据,根据颜色的深浅判断甲基化值的大小。
而最简单的格式只需要前三列就能上传查看,并且其他格式的数据也能很方面的转换成BED格式进行上传。
当文件大小超过50M时,则不推荐通过网页上传数据,这时候需要一个URL链接,通常是bigBed, bigWig, bigGenePred, BAM 和VCF格式的数据,我们以bigWig格式为例。
bigWig是通过wig格式的文件转换的二进制压缩文件,而wig文件也是和BED文件类似的包含区域信息的文件,一般使用MACS峰值探测后可以产生wig格式的文件。wig格式是可以直接上传的但超过50m就推荐转换成bigWig文件上传。转换命令如下:
wigToBigWig input.wig chrom.sizes myBigWig.bw(若出现超出染色体长度的错误,需编辑染色体信息使其长度增加)
wigToBigWig程序下载地址:http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/wigToBigWig
chrom.sizes染色体信息下载地址:http://hgdownload.soe.ucsc.edu/admin/exe/
上传的例子如下,需要在bigDataUrl后增加数据的在服务器中的链接。
wig和bigWig文件的优势在于可以体现出数据大小的变化和高低,例如组蛋白修饰的峰值等。
1 图像的设置
首先是最上方的设置,对图中的区域进行放大和缩小(基于碱基数目),下方的输入框可以输入具体基因组的位置(tab分隔)或一个条目的名字跳转到该处,也可以点击图像左右拖拽进行微调。
图中的每个track可以点击左侧灰色条框拖拽进行上下移动。
对于每一个上传后的track在图中都可以右键灰色条框设置其显示效果。如果上传的文件对每段区域有定义的名字,则会多出pack和squish的选项。
例如以浏览器中自带的CpG岛为例,选择了pack后则会在每个CpG岛前显示其名字,这是比较合适显示效果。用户可以根据自己上传的数据选择不同的设置进行调整。
对于有峰值显示的数据,可以左键灰色条框设置其显示的高度。
图像下方的一行设置中tracksearch可以搜索感兴趣的条目,manage custom tracks即是上传文件,configure是设置图像的宽度,resize是调整图像的宽度和浏览器宽度一致。
关于最下方的设置,是浏览器自带的基因组中的参考信息,可以对没有帮助的进行隐藏,如果没有显示出感兴趣的信息,可以使用track search进行搜索添加。
图像的保存可以点击上方的PDF/PS进行保存。
最后则是这个项目的保存,网页中没有保存的选项,因此需要重复项目创建的过程,在界面上方点击My Data中的My Sessions,使用当前项目的名字进行保存覆盖即可。
小结:本文仅提供了最简单直接的可视化实现方法,更详细的介绍在UCSC官网:http://genome.ucsc.edu/FAQ/FAQformat.html#format1。Genome Browser的可视化更多的是方面自己对数据的理解,更直观的查看识别出的差异区域是否显著,或是感兴趣的例如CpG岛、启动子等区域的信息,有助于更进一步的分析。
标签:文件,浏览器,数据,BED,UCSC,可视化,信息,设置,上传 来源: https://blog.51cto.com/15127592/2674467