其他分享
首页 > 其他分享> > TCGA筛到了基因,如何继续往下做?

TCGA筛到了基因,如何继续往下做?

作者:互联网

图片



TCGA大名我们都不陌生了,其海量数据便于我们找到有研究价值的基因,再展开后续的研究。万事开头难,筛选基因时就好不容易学了一堆技术,开完头发现后边更迷茫,怎么办?酸菜大大把整个过程给我们整理出了八大问题,说清其中的思路。


今天先来看看前四步,怎样获得靶基因,并确定它具有值得研究的表型。


靶基因(candidates)是怎么获得的?


图片


TCGA的数据分成6个维度,积累了高通量的测序数据、蛋白水平的数据和基因修饰的数据等,很有可能挖掘出我们研究所需要的candidates。然而它的数据量实在太庞大了,且数据下载和分析都是非常专业的工作,对于医学工作者来说并不容易。


大部分人也会自己做一些高通量筛选的前期研究,如果此时已经筛选到自己的靶基因,那和从TCGA数据库去挖的效果是差不多的,甚至自己的高通量结果找到的东西丰富程度、独有性会更好一些。


当然,没有前期经费的话只能学习从TCGA、GEO等数据库中挖掘啦。TCGA是针对肿瘤研究方向的,而GEO数据库也很庞大,各个疾病的都有,非肿瘤方向的研究者也有机会通过已发表的高通量数据挖掘自己的candidates。当中需要的专业技能并不是高不可攀,也有一些生信服务公司可以合作。


除了这2种方法之外,还有一种常规又最省钱的方法是从文献中找。但这也非常依赖于经验,当你看到有人报道了一个分子和它的研究背景,是否能很好地找到它跟自己的研究的联系。这需要长时间基础研究的经验积累。


这3种模式不能说哪种更优,还是应该结合自己的情况选择合适的策略。


获得靶基因有什么样的特征信息?


图片


经过了TCGA数据库筛选,我会得到一个什么样的靶基因信息呢?一般来说要做至少2个分析来观察。


第1个分析是差异表达分析,也就是分析癌和癌旁之间有差异表达的分子。但此类分析全球很多课题组都做过,所以你也可以选择其他的临床问题来分析,比如一组高转移倾向的,一组低转移的,一组耐药的,或者一组对某个治疗敏感的,把这些临床问题分的更细致,就有可能拿到更好的差异基因。


不过TCGA中不同的研究会分成不同的子集,通过不同的子集获得的数据可能是不一样的,也还是有可能会挖到别人没有研究过,且有研究价值的靶分子。


第2个分析就是找到这个靶分子和预后的关系。在肿瘤的研究中预后是非常重要的临床指标,跟预后相关的靶分子对研究意义来说是很重要的参数。当你获得了差异表达,又获得了预后的证据,这个分子进行后续研究的价值就大大提升了。


不过要想把这个基因筛选的工作做好,最好再加上2步分析会更加完整。


一是文献查新。有可能你找到了好多分子,一个分子还可能有几百篇文章,一看心好累不想做了?并不,有可能几百篇都跟肿瘤没关系呢。所以还是需要去了解一下这个分子的前期研究背景,说不定也是肿瘤领域中的新分子,要重点关注。


但也有人一做文献查新发现有个分子跟肿瘤从来没有报道过,就不敢做了。这是个误区,原创性就在于你发现了一个别人没有发现过的东西,如果别人已经在肿瘤当中报道过了,你再去重复,这种立题角度不大可能发表很高影响因子的文章。


另外一个分析是生信分析。生信有很多工具,能做功能聚类分析,GEO分析,有pathway分析,信号通路的KEGG数据库的分析,也可以继续分析它跟其他分子的相互关系,调控网络等。


相对来说GEO分析和KEGG分析较简单,调控网络分析就麻烦一些,需要各种数据库的综合。那如果我们有机会看到这个候选分子跟miRNA、lncRNA的关系,可能参与调控的转录因子,或者有相互作用的蛋白,则对于后期分子机制的研究来说是很重要的线索。


如何确定靶基因具有某种表型?


图片


前面还是纸上谈兵,所有candidates都必须经过实验验证才有可能成为发表文章的种子。我怎么确定这个种子能够发芽?这就需要针对靶基因进行表型验证。


我们前期是通过表达差异和预后分析拿到的candidates,这个差异也不一定要放到自己的样本中验证,因为这不是最关键的数据,它只是个加分项,而不是产生新结论的数据。


现在最重要的是要确定它在细胞系中有没有促进癌症发生发展的表型现象,比如增殖、周期调控、抗凋亡、转移、血管新生等等,这些实验要有阳性结果才叫有表型。所以接下来就是要选细胞株,进行这些表型实验的验证。


当然还要做一些前期准备。第一步,需要针对这个靶基因去设计它的qPCR引物或者是订购抗体。首先要检测一下它在细胞株中的表达情况,同时还是为了选择接下来进行验证的细胞株。如果做基因沉默,就应该选一株高表达细胞株,反之做过表达,就需要选择低表达的细胞株。


同时还要做些预实验,比如看看细胞的转染效率,细胞增殖的情况,看看在你的培养体系里这些细胞的状态等。通过这些预实验,表达数据,转染情况,细胞的状态,去确定在什么细胞中进行基因的过表达或者是沉默。


而要实现基因的过表达、沉默,还需要订购载体、sRNA,或者订购shRNA的病毒,做过表达同样也要做病毒或者是质粒,还有订购转染试剂等准备工作。


此后,还要进一步在细胞株中验证基因过表达或者是沉默的效率,要检测进行基因操作之后改变效率的情况。


最后也是最关键的一步,你需要去铺板做这些功能试验和细胞生长曲线、克隆形成、transwell实验、血管形成实验等等。一般转移和增殖是必须看的2个指标,其他指标则根据实验情况,根据这分子可能跟哪些表型相关的推测,去做验证。如果在任一表型实验中得到了阳性结果,那么恭喜你,这个分子有可能是能发芽的种子。


如果没有表型怎么办?


图片


这真是件悲伤的事情,前面做了那么多,最后一验证表型发现没表型怎么办?但在科研中这其实很常见,科学假设和实验验证之间永远存在不确定性,否则科研岂不是很简单了。


我们有这样一个策略,在36策的课中也讲到过,即采取用通量来解决阳性概率问题的方法。通俗点讲就是不应该一次做1个基因,应该选3-5个,或至少2-3个来批量验证,提高效率。


如果2个分子都有表型,那就有2篇文章了;如果其中一个有问题,那就专注培养那个能发芽的种子就可以了,另一个舍弃或不做深入探究。这样便可在一个固定的时间内拿到你想要的结果。


要是一次实验没有表型,千万不要气馁,要注意分析有可能在实验操作中的潜在的问题(尤其新手更容易遇到)。常见的问题如转染效率或感染效率,所以我们在前面要有一步基因表达或者是沉默效率的验证,如果这个基因操作的载体根本没导到细胞里,基因沉默效率有问题,后续的表型实验当然做不出来了。所以转染或者感染效率、靶基因的过表达或者沉默效率,是特别需要关注的参数。


同时也要注意在表型实验中设置对照。阴性对照大家都知道,此外还要设置阳性对照,也就是找一个已知的、表型非常明确的靶基因,把它的过表达或者干扰跟你的实验一起做。


如果你的表型实验中阳性对照是有阳性结果的,而你的靶基因没有结果,就能证明你的体系没问题;如果阳性对照都做不出来,就要找找别的原因了。


还有一个策略是选择多几种细胞株来验证。在不同的肿瘤细胞株中这些表型不会完全一致,有时候这株细胞没有表型换株细胞就有,因为这些细胞背后的遗传背景、分子背景都不一样,其通路、机制等也有细微差别,可能就是需要一条特殊的效应通路,这个细胞恰好没有,所以你的表型做不出来。


最后一个策略,建议大家多看看表型。一个分子会有不同的功能表现,不仅仅是细胞的增殖、凋亡这些常规现象,还有可能需要一个应激作用,比如加药或不加药,可以尝试一些常见的化疗药物;也可以看看它和其他细胞的交互,比如用transwell养免疫细胞,看看对它们的促进作用。


如果你的实验体系中有比较成熟的表型研究或技术的前期积累,就不妨就多尝试一下,可能会发现比较新颖的表型现象,这对后期的文章也是极大的促进。


我们需要明确一点,肯定不是拿到一个基因就一定能做出表型的,如果前期实验确认无效,可以考虑换一个靶基因。


一旦确定了表型,接下来就要发文章、申基金了!欲知后事如何,且看下回分解^_^



标签:分子,筛到,表达,往下,TCGA,基因,细胞株,表型,实验
来源: https://blog.51cto.com/u_15127638/2777453