检索未解释的 MS/MS 数据
作者:互联网
如果您没有时间阅读这个简短的教程,以下是最重要的注意事项:
- 您无法搜索原始数据; 它必须转换为峰值列表。
- 搜索参数很关键,应该通过运行标准来确定,例如 BSA 摘要。
- 如果您不确定要搜索哪个数据库,请从 Swiss-Prot 开始。
- 如果您使用分类过滤器或搜索单个生物数据库,请在搜索中包含污染物数据库。
- 只选择非常丰富的修饰作为变量。
- 如果蛋白质是用酶消化的,请选择这种酶。
- 使用容错搜索查找翻译后修饰、SNP 和非特异性切割产物。
- 肽匹配只有在预期值低于 0.05 时才有意义(可靠)(5% 的可能性为假)。
- 对于重要的工作,运行目标诱饵搜索,将肽段 FDR 设置为 1%,并通过要求与至少 2 个不同序列显着匹配来过滤 Report Manager 中的蛋白质。
教程
数据库搜索的第一个要求是 峰值列表 ; 您不能上传原始数据文件。 原始数据通过称为峰值拾取或峰值检测的过程转换为峰值列表。 通常,仪器数据系统会处理此问题,您可以直接从数据系统提交 Mascot 搜索,或将峰列表保存到磁盘文件以使用 Web 浏览器搜索表单提交。 如果没有,或者如果您有原始数据文件并且无法访问数据系统,则需要找到一个实用程序将其转换为峰值列表。 峰列表是文本文件,有各种不同的格式。 如果您有选择,建议使用 MGF。 小心使用 mzML,因为它可能包含原始数据或峰值列表。
仅靠峰值列表是不够的。 还有一些 搜索参数 必须适当设置 按照 此链接 在新的浏览器选项卡中打开搜索表单。 搜索表单上每个控件的标签也是帮助主题的链接。 请注意,您可以通过访问 Mascot Server 页面底部的链接为 Web 浏览器搜索表单设置自己的默认值。
无论您有自己的 Mascot 服务器、内部服务器,还是连接到免费的公共 Mascot 服务器,该表单看起来都差不多。 如果您使用免费的公共 Mascot Server,则有一些限制,其中之一是您必须提供姓名和电子邮件地址,以便在连接断开时我们可以通过电子邮件发送指向您的搜索结果的链接。 一个更重要的限制是搜索的 大小是有限的 。 是否输入搜索标题是您的选择。 它显示在结果报告的顶部,并且可能是日后识别搜索的有用方法。
如果可能,运行一个 标准样本 并使用它来设置所有搜索参数。 对于标准样本,我们的意思是像 BSA 摘要这样的东西,它会提供强匹配,并且您知道答案应该是什么。 尝试在未知对象上设置搜索参数要困难得多,尤其是在样品在检查过程中丢失或仪器出现故障的情况下。
您必须做出的第一个选择,也是一个比较困难的选择,是 数据库 要搜索 免费的公共网站只有几个比较流行的公共数据库,但内部服务器可能有一百个或更多。 一些数据库包含来自单一生物的序列。 其他包含来自多种生物的条目,但通常包括每个条目的分类,以便在使用 分类 过滤器进行搜索期间可以选择特定生物的条目。
如果您不确定样本中有什么, Swiss-Prot 是一个很好的起点。 这些条目都是高质量的,并且注释很好。 因为 Swiss-Prot 是非冗余的,所以它比较小。 数据库的大小是 搜索空间 ——将肽序列的数量与光谱进行比较,以确定哪个给出了最佳匹配。 搜索空间越小,就越容易获得具有统计意义的匹配。 这是一个非常重要的概念,其他影响搜索空间大小的因素将在我们谈到它们时突出显示。
如果您认为您知道样本中的内容,您可能需要搜索特定于生物体的数据库。 但是,您永远不能排除污染物。 如果您只有少量光谱,这可能是一个严重的问题。 您可能对人类蛋白质感兴趣,因此您搜索了人类数据库,但您的光谱是针对来自污染物的肽,因此您没有匹配或误导匹配。 在搜索单个生物的条目时,请始终包含 常见污染物 。 这很重要,即使您有一个大型数据集并且对目标生物以外的任何蛋白质不感兴趣。 否则,您最终可能会报告您的样本充满血清白蛋白,而它实际上是 BSA 或角蛋白,而实际上它是来自衣服的绵羊角蛋白。 在 Web 浏览器表单中,要选择两个数据库,首先单击目标数据库,然后按住控制键并单击污染物数据库。 如果您的搜索使用分类过滤器,这不是问题,因为没有为污染物数据库配置分类,因此将始终搜索所有条目。
如果您的目标生物具有良好的特征,例如人类或小鼠或酵母或拟南芥,则可能无需超越 Swiss-Prot。 您可以了解您的有机体在 SwissProt 中的表现情况 发布说明 ,其中列出了 250 个最佳代表物种。 如果您对细菌或植物感兴趣,您可能会发现它在 Swiss-Prot 中的代表性很差,最好尝试一个综合蛋白质数据库,该数据库旨在包括所有已知的蛋白质序列。 最著名的两个是 NCBIprot 和 UniRef100 。 如果您的生物体的基因组尚未测序,您可能仍然不走运,您最好的希望是搜索 EST 集合(表达的序列标签是相对较短的核酸序列)。 按照 此链接 在 NCBI 分类浏览器中查看鳄梨梨 (Persea americana) 的条目。 这在 Swiss-Prot 中只有 10 个条目,在整个 NCBIprot 中只有 795 个。 如果这是您感兴趣的有机体,您肯定会想要搜索 EST,其数量超过 16,000。 (截至 2016 年 11 月的所有数据)
永远不要在不查看条目数和了解分类的情况下选择狭窄的分类法。 例如,在当前的 Swiss-Prot 中,有 26,139 个啮齿动物条目,其中除了 1,602 个之外,其余都是针对小鼠和大鼠的。 因此,即使您的目标生物是仓鼠,选择“其他啮齿动物”也不是一个好主意。 最好搜索啮齿动物,并希望从小鼠和大鼠中找到同源蛋白的匹配。
Swiss-Prot 是一个非冗余数据库,其中非常相似的序列被折叠到一个条目中。 这意味着数据库条目通常与您分析的蛋白质略有不同。 标准数据库搜索需要准确的肽序列,因此您可能会因为 SNP 和其他变体而错过一些匹配。 这将是搜索大型综合数据库的另一个原因。 但是,请记住,NCBIprot 的大小是 Swiss-Prot 的 150 倍,因此搜索时间相应地更长,搜索空间也相应地更大,这意味着您需要更高质量的数据才能获得重要匹配。
如果您的蛋白质是使用 酶 ,请始终选择这种酶。 为非特异性切割选择半特异性酶或“无”会大大增加搜索时间和搜索空间,这几乎肯定会导致匹配数量的净减少。 下面讨论的容错搜索是寻找非特异性肽的更好方法。 如果您正在研究内源性肽,例如 MHC 肽,您别无选择,“无”酶会在所有蛋白质的所有子序列中寻找匹配项。 如果您要 自上而下 分析完整蛋白质,请选择 NoCleave。 请注意,NoCleave 与 None 不同; 恰恰相反。
在设计您的实验时,请注意将蛋白质消化成非常短肽混合物的低特异性酶不是一个好的选择,因为在许多数据库条目中会发现非常短的序列,因此特异性低。 肽越长,就越容易获得显着匹配,并且匹配越有可能指向一种特定的蛋白质。 在大多数情况下,最好使用特异性等于或大于胰蛋白酶的酶,并专注于质量在 1200 和 4000 Da 之间的肽。
允许的 缺失劈裂 ,通过将该标准设置为高值并查看显着匹配来判断不完全劈裂的程度。 将此值设置为高于必要的值只会增加搜索空间的大小,您现在会认为这是“坏事”。
修改 以两种方式处理。 首先,有 固定 或定量的修改。 一个例子是半胱氨酸的有效烷基化。 由于所有半胱氨酸都被修饰,这实际上只是半胱氨酸质量的变化。 它在搜索速度或特异性方面没有任何损失。
相反,大多数翻译后修饰并不适用于残基的所有实例。 例如,磷酸化可能只影响含有许多丝氨酸和苏氨酸的蛋白质中的一个丝氨酸。 这些 可变 的或非定量的修改是昂贵的,因为它们增加了搜索空间。 这是因为软件必须置换出适合肽分子量的修饰和未修饰残基的所有可能排列。 随着越来越多的修改被考虑,组合和排列的数量呈几何级数增加,我们得到了所谓的组合爆炸。
这使得保留变量修改非常重要。 如果搜索的目的是识别尽可能多的蛋白质,最好的建议是使用最少的可变修饰,或者根本不使用。 大多数翻译后修饰(例如磷酸化)很少见,使用容错搜索来查找它们的效率要高得多。
您不能选择具有相同特异性的两个固定修饰。 如果您选择与固定修饰具有相同特异性的可变修饰,则排除了未修饰位点的可能性。 例如,如果您选择碳酰氨基甲基 (C) 作为固定,丙酰胺 (C) 作为可变,您可以匹配其中任何一个,但永远不会匹配具有游离半胱氨酸的肽。 此外,您将无法匹配同时使用氨基甲酰甲基和丙酰胺修饰的肽。
估计 质量精度 不一定是猜谜游戏。 Mascot 结果报告包括质量误差图表。 只需运行一个标准并查看强匹配的错误图。 忽略可能是偶然匹配的异常值,您通常会看到某种趋势。 添加安全边际,这是您的错误估计。 母离子质量误差图表位于蛋白质视图报告中,MS/MS 碎片质量误差图表位于肽视图报告中。 您还可以使用这些图表来确定 Da 或 ppm 是否是容差单位的最佳选择。
有时,峰选择会选择 13 C 峰而不是 12 C,因此质量差 1 Da。 在极端情况下,它可能会选择 13 C 2 峰。 。 #13C 控制允许这一点,使您能够使用严格的质量公差并仍然获得匹配 一般来说,不建议将#13C 与脱酰胺结合使用,因为如果 13 C 前体含量较高,则难以可靠地检测脱酰胺。 这是另一个应该通过运行标准凭经验确定的设置。
大多数现代仪器产生 单一同位素 质量值。 您将只有 平均 如果整个同位素分布已集中到单个峰中, (如果您将此设置错误,质量误差将非常大并显示出强烈的趋势,因为肽和蛋白质的平均质量和单一同位素质量之间的差异约为 0.06%。)
肽 电荷 是默认值,仅在峰列表中未指定电荷时使用。 大多数峰值列表总是指定充电状态,因此从不使用此默认值。
仪器 中将 考虑哪些碎片离子系列。 选择与仪器类型最匹配的描述。 如果您按照控制 标签链接 ,您会发现许多仪器非常相似。 主要问题是您是否为 ETD 数据选择 CID,反之亦然。
报告 确定搜索结果报告中显示的最大匹配数。 始终选择自动显示包含一个或多个重要肽匹配的所有蛋白质匹配。
的 诱饵 肽错误发现率 (FDR)。 Mascot 使用相同的搜索参数对序列已被反转的数据库重复搜索。 您不希望从诱饵数据库中获得任何真正的匹配,因此观察到的匹配数量是对目标数据库结果中误报数量的极好估计。 结果报告获得了一个控件,允许将显着性阈值调整为 5% 或 1% 的肽段 FDR 或您认为适合您工作的任何值。 请注意,这是肽 FDR,而不是蛋白质 FDR。
正如已经多次提到的, 容错 搜索是发现大多数翻译后修饰以及非特异性肽和序列变体的最有效方法。 这是一个两遍搜索,第一遍是对整个数据库的简单搜索,修改最少。 然后选择在第一遍搜索中找到的蛋白质命中进行详尽的第二遍搜索,在此期间我们寻找所有可能的修饰、序列变体和非特异性切割产物。 因为只搜索少量条目,所以搜索时间不是问题。 在有限的搜索空间中,来自第一次搜索的匹配是蛋白质存在的证据,而来自第二次搜索的匹配则增加了覆盖范围。 如果您看到非常丰富的修饰,最好将其添加为变量修饰,然后再次搜索,因为容错搜索仅捕获具有单个未预料到的修饰的肽。 容错搜索对于高度修饰的蛋白质(例如组蛋白)或每个蛋白质只有一个肽(例如内源性肽)的情况不太有用。
最后,如果您正在分析蛋白质,您应该搜索包含尽可能多肽段数据的峰列表,因为任何一个谱图都可能无法匹配的原因有很多:
- 确切的肽序列不在数据库中
- 肽以意想不到的方式被修饰
- 非特异性酶切
- 母离子 m/z 或电荷错误
- 频谱非常微弱或嘈杂
如果您根本没有找到任何匹配项,则只能通过反复试验来更改搜索参数,这既费时又冒着误报的风险。 如果您搜索许多光谱,您有更好的机会匹配其中一些,并且可以在容错搜索中系统地或自动地修改搜索参数。
标签:检索,匹配,数据库,条目,搜索,MS,修饰,未解释,蛋白质 来源: https://www.cnblogs.com/xintai/p/16295617.html