数据库
首页 > 数据库> > 小数据撬动大基金,“黄金”数据库大盘点

小数据撬动大基金,“黄金”数据库大盘点

作者:互联网

不得不感慨,现代信息技术造就的海量数据给了我们许多便利,越来越多的医学研究项目认识到数据的力量,将重心转移到数据上来。已发表数据可以利用起来,做新的分析挖掘,找出事物之间未曾发现的关联;或者整合零散的信息建立新的数据库;或开发新的算法,成为更有力的数据分析工具。


这不,2017年国自然面上项目中,也见到了一些基于数据的研究项目。


图片


对于我们未能跨进面上项目大门的小盆友来说,利用现有数据做点研究是再便利不过的打基础之路。


之前我们介绍了一些生信数据库的查找方法(《来聊一聊那些五花八门的生信数据库》)。这么多数据库令人眼花缭乱,而且还正如雨后春笋般不停地增长,该如何选择呢?


数据库的“黄金集合”



Nucleic Acid Research(NAR)第24版特刊,特意总结了过去的12年里,一些经受住时间考验、引用量较高的数据库,它们为各领域的研究者服务,产生了许多优质成果,称为“黄金集合(Golden Set)”。


它们大多是一些综合数据库,覆盖面较广。正因如此,它们也能被投入更多的资本来维护,是以质量较高。


以下就是这些被NAR称为“黄金集合”的榜单,如果有你感兴越的,可以尝试利用起来。


图片

图片


第一列No.是该数据库在NAR收录库中的编号,最后一列是在NAR中发布及更新报告的年份,中间则是数据库名称、链接及描述。


我们用的最多的是GenBank,因为它和PubMed集成在NCBI。就以它为例,看看数据库的基本操作。


常用数据库的基本操作


查找基因、mRNA、Promoter


GenBank最常用的功能,查基因、mRNA、Promoter,用的是Map viewer(反正都集成在一个网站里,网址为:  http://www.ncbi.nlm.nih.gov/mapview/index.html )。


1.在页面下拉菜单里选择物种,for后面填写你的目的基因,而后点击“Go”。


图片

图片


2. 在Quick Filter中,点击Gene前面的小方框,并点击Filter,结果如下图所示。

图片


结果中,染色体的红色区域即为你的目的基因所处位置。


3. 点击第一条序列(即reference)对应的“Genes Seq”,出现新的页面,页面如下图所示:


图片


点击上图中的Download/View Sequence/Evidence,即可下载查看序列等功能,结果如图所示:

图片


在上图中的Sequence Format(序列输出格式)中有一个下拉式选择菜单,默认的为FASTA格式,但还是推荐大家选择GenBank格式,因为这个格式提供了很多基因的信息,而FASTA格式只有基因序列。


4. 在Sequence Format后选择GenBank,点击下方的Display,目的基因的相关信息和序列结果如下图所示。


图片


网页里也可以看到基因长度、基因序列以及这个基因是如何被报道出来的等各种信息。


用KEGG画通路图


有了基因感觉还差了点什么,对就是通路。信号通路的查询绘制,正是KEGG的拿手好戏。比如说,前期已经有了实验结果:构建了沉默新基因A表达的质粒,转染肺癌549细胞系,确定敲减效率,上流式细胞仪检测,发现细胞周期被阻滞(cell cycle arrest)在S期。那么我们现在需要从细胞周期的角度阐明新基因A促进肺癌细胞系549增殖的分子机制,怎么做?


1. 首先打开KEGG主页:http://www.kegg.jp/,点击下图框中的KEGG PATHWAY链接。


图片


2. 输入关键词:cell cycle


图片


3. 出现结果:


图片


4. 点击map 04110,出现KEGG对cell cycle的描述:


图片


5. 所有物种中相关基因的详细列表


图片

图片


每个基因在KEGG数据库里面有对应的ID,例如CCDN1对应的ID号:K04503,CDK4对应K02089,我们后面会用到。


图片


相关的不同模块、疾病、日本Kanehisa Laboratories的工作人员整理这个信息库所参考的文献,其它的数据库,例如GO:0000278,可以用Gene Ontology这个数据库直接查到在这个数据库中的信息:


图片


6. 开始查基因A的下游机制,直接点击图,会出现相信的信号通路:


图片


这是KEGG里面整理出来的cell cycle相关信号通路图,细胞周期中S期的相关基因(我们上面举的例子是A沉默后可以把细胞阻滞在S期),每个可以点击,例如:CDK2,查看这个基因的相关信息。


图片


值得挖掘的小数据库


另外还有许多疾病特异性数据库,或称位点特异性数据库(Locus specific databases,LSDBs),它们专门收录某一疾病或表型最相关的一组或几组基因的数据,被认为是特定领域内更具专业、更权威的数据库。


但也有学者指出,这些数据库由于管理团队力量有强有弱,便也造成数据质量参差不齐。有些数据库已发布好几年,但以其为基础做出的研究成果却很少,甚至没有。当然这除却质量原因外,也和该领域的研究热度以及该数据库的关注度有关。


如果我们想利用这些数据库搞点事情,就需要多查查既往文献中,大家是如何利用它们的,出过哪些成果,再结合自己的研究经验做出判断。善于挖掘的话,也许能从这些集中于某一研究领域的数据库里挖出宝藏。


下面再来分享一些利用位点特异性数据库发表的成果,看看别人是怎么运用它们的。多半是要跟几个数据库,尤其是一些大型综合数据库结合使用,相互印证。


2型糖尿病:T2D Knowledge portal


图片

http://www.type2diabetesgenetics.org/


2型糖尿病(T2D)及相关性状的数据库,可浏览、检索、分析与T2D相关的基因信息。目前已有22个数据集,覆盖47种性状。


来看这份今年发表的研究:


图片


编码核纤层蛋白lamin A和lamin C的LMNA基因发生突变,会导致多种核纤层蛋白病,包括肌营养不良、扩张性心肌病、胰岛素抵抗等。


研究者先在ExAC上找到169个突变,其中37个有疾病相关性,包括p.I299V (等位基因0.0402%), p.G602S (0.0262%) and p.R644C (0.124%),提示某些LMNA突变比以前所知的更为常见。


ExAC是一个外显子序列的综合数据库,集成了多个大型研究项目的外显子数据,覆盖多种疾病。


接着在T2D Knowledge Portal中独立分析LMNA突变,发现p.G602S与2型糖尿病显著相关(p = 0.02; odds ratio = 4.58),且在非裔美国人中等位基因频率更高(0.297%),可认为是非裔美国人的T2D风险预测因子。


阿尔兹海默病:AlzGene


图片

http://www.alzgene.org/


AlzGene是AlzForum(阿兹海默病论坛)下的一个收录基因组数据的数据库。AlzForum作为AD的各种资源、信息的集散地,已经运营了近二十年。AlzGene收录的开源数据也相当丰富:


图片


下面是今年发表的利用AlzGene做的研究。


图片


前期有一些研究发现,BIN1基因的rs744373多态性在欧洲血统的样本中与晚发阿兹海默病有相关性,但另有一些研究则表示未观察到rs744373与高加索人种、东亚人种相关。但这些研究的样本量较小,说服力不足。


研究者们检索了AlzGene,还有PubMed,MEDLINE,共收集了11832例LOAD患者及18133例对照,重新分析了二者的相关性。这份研究支持rs744373多态性与LOAD的相关性,并且没有观察到亚州人与高加索人的差异。


LncRNA相关疾病:LncRNADisease


图片

http://www.cuilab.cn/lncrnadisease


随着近年来lncRNA研究的火热,越来越多的研究开始探索它们与疾病的关系。lncRNA失调可能与多种疾病相关,包括癌症、心血管疾病、神经退行性疾病等。北京大学的崔庆华教授团队建立了这个数据库,收录lncRNA - 疾病相关数据,并集合了一些工具分析新的lncRNA – 疾病相关性。


下面这份研究则是血清lncRNA作为鼻咽癌的生物标志物,今年发表在Oncotarget上。


图片


无创性诊断也是近年的热门研究,多种疾病尤其癌症都想从lncRNA入手找到可用于诊断及预后的生物标志物。本研究先在LncRNADisease数据库中,以“nasopharyngeal carcinoma”为关键词,检索到38个差异表达的lncRNA。


接下来招募了101名鼻咽癌(NPC)患者,20名慢性鼻咽炎患者,20名EB病毒携带者及101名健康对照受试者。取血清样本,对这38个NPC相关的lncRNA进行qRT-PCR的筛查。最后找到循环系统中,MALAT1、AFAP1-AS1和AL359062 这3个lncRNA联用,可能可以作为NPC的诊断及预后标志物。


免疫缺陷病:IDbases


图片

http://structure.bmc.lu.se/idbase/index.php


IDbases是收录能引起免疫缺陷的基因变异及相关临床表现的数据库,数据是从文献中收集而来,或由研究者提交。现有7292名患者的数据。


图片


严重联合免疫缺陷病(severe combine immune deficiency, SCID) 是一组由于基因突变引起的T淋巴细胞和B淋巴细胞发育及功能障碍的先天性免疫缺陷性疾病,预后很差。研究者招募了147名患者做个队列研究,希望能找出有与诊断年龄和症状首发到确诊的时间的临床特征。


其中,B淋巴细胞计数的阳性与阴性临界值还未有公认的标准,于是研究者们通过基因分型来鉴定。共找到了88个突变位点,在HGMD Pro version 2016.4和IDbases两个数据库中检索,确定其中有29个突变尚未有报道。


标签:KEGG,lncRNA,研究,数据库,基因,撬动,点击,黄金
来源: https://blog.51cto.com/u_15127638/2777451