【论文阅读】crYOLO:快速准确的全自动颗粒挑选方法
作者:互联网
目录
一、 论文题目
SPHIRE-crYOLO is a fast and accurate fully automated particle picker for cryo-EM
二、论文概述
本文介绍了基于深度学习目标检测系统“只看一次”(YOLO)的粒子采集软件crYOLO。用每个数据集200–2500个粒子训练网络后,它会自动识别具有高查全率和精度的粒子,同时达到每秒多达5张显微照片的速度。此外,我们提供了一个通用的crYOLO网络,可以从未知数据集中进行颗粒挑选,从而可以在数据采集过程中实现全自动的实时冷冻电镜数据预处理。
crYOLO可作为独立程序在http://sphire.mpg.de/下获得,并作为SPHIRE中图像处理工作流程的一部分。
上图:crYOLO中的训练和选取。
a. 使用YOLO方法,完整的显微照片被作为CNN的输入。当图像通过网络时,图像在空间上被下采样到一个小网格。然后YOLO预测每个网格单元是否包含粒子边界框的中心。如果包含,它就会估计单元内粒子中心的相对位置,以及边界框的宽度和高度。在训练过程中,网络只需要标记颗粒。此外,当网络看到完整的显微照片时会学习粒子的上下文。
b. 在选取过程中,crYOLO每秒最多处理5张显微照片,因此优于滑动窗口方法。
三、主要贡献
- crYOLO使用了YOLO框架,从而将分类问题重构为回归问题,由于输入的是完整图像,所以能够学习颗粒周围更大的背景;
- 训练时只需要标记正样本,且对稀疏标记的样本同样具有较好效果;
- 准确度高且效率高,可以达到单个GPU下每秒处理5张显微图像的速度;
- 提出了通用模型,可以检测未知数据集中的颗粒。
- crYOLO已整合在TranSPHIRE流水线中,并对新的网络架构具有可拓展性。
四、实验方法与评价指标
1. 数据集
- 3个cryoEM数据集:
- TcdA1(EMPIAR-10089):颗粒清晰但数量少。
- NOMPC(EMPIAR-10093):在纳米盘重组,不易挑选。
- Prx3(EMPIAR-10050):使用了相位板技术,但杂质、污染和解离颗粒对比度也被提高。
- 1个模拟数据集:TRPC4(20张,每张250颗粒,不同的噪声级,添加了结构噪声、拍摄和数字化噪声)
- 1个已发布数据集benchmark:KLH(包含了KLH颗粒、纤维丝、堆叠颗粒、破损颗粒。)
2. crYOLO网络架构
-
crYOLO基于YOLO架构和深度学习库Keras,加上了patch处理、多GPU支持、并行处理、预处理、单通道数据输入、MRC及TIFF等文件格式支持、RELION的star文件和EMAN的box文件格式支持、友好的图形界面。
YOLO包括了22个卷积层、5个池化层、13和21层之间的直通层、1*1卷积层(检测层)。 -
为了改进原始YOLO的粗粒度对小颗粒识别的较低性能(每个网格单元只能检测到单个粒子),crYOLO将输入图像划分为少量重叠的补丁(如2×2或3×3),然后每个补丁将代替完整的显微图,下采样为1024×1024大小的图像输入网络。
-
为了防止过拟合,图像会先进行增强。采用的方法有:翻转、模糊、添加噪声、随机对比度变化。
- 损失函数:
3. 训练和测试
为了训练crYOLO,手动选择粒子的初始训练数据集。对于TcdA1、NOMPC和Prx3数据集,我们发现至少5张显微照片中的200-2500个颗粒足以正确训练这3个数据集的网络。
此外,不需要挑选负样本(包括背景,碳边缘,冰污染,和坏的颗粒)的,因为其他位置被认为是负样本,只要这些污染物存在于带有标签颗粒的训练图像中即可。
理想情况下,每张显微照片都应该被挑选完成。然而,由于低温EM显微照片的对比度通常较低,用户通常无法选择所有的颗粒进行训练,往往会错过其中的一些颗粒,称为假阴性。在训练过程中,包括假阴性的惩罚比遗漏真阳性的惩罚要低,这使得训练过程中能够收敛,即使一张显微图中只有 20% 的颗粒被选中。
TcdA1数据集
训练: 在10张显微照片,共1100个颗粒的数据集上训练。
测试: 从98张显微照片中,挑选了10854个颗粒。
- 为了评估crYOLO的性能:计算了准确率和召回率,在AUC曲线体现。
- 为了量化颗粒的中心化程度:计算了crYOLO和人工挑选结果的IOU。TP标准设置为IOU>0.6。
- 为了评估颗粒质量:
①使用了迭代稳定对齐和聚类方法ISAC进行二维聚类;
②比较3D重建结果。
a-c
取自EMPIAR-10089数据集。红色框表示由EMAN中的Gauss-Boxer,crYOLO和通用crYOLO网络选择的颗粒。
d
三个数据集的颗粒选择和结构分析的总结。所有的数据集使用相同的工作流程在SPHIRE处理。
e
对crYOLO从TcdA1中挑选的颗粒,使用ISAC和Beautifier工具(SPHIRE)获得无参考2D类平均。
f
傅里叶壳相关(FSC)曲线。
g
从侧面显示了从crYOLO挑选的粒子获得的TcdA1的最终密度图,并由亚单位着色。使用来自通用crYOLO网络的颗粒进行重建是无法区分的。
其他两个数据集
大致相似,有的和EMAN比较,有的和RELION对比。具体过程略。
模拟数据集
- 评估SNR对于颗粒挑选的依赖性。
采取不同的噪声水平,计算了结果的AUC值。
Benchmark数据集
- 评估训练集大小的影响。
crYOLO可以在较小数据集下得到较好训练效果。
五、结果
除了上文中的一些评估结果,还有:
1. 计算效率
配置: 台式机 + NVIDIA GeForce GTX 1080 + 8G内存 + IntelCore i7 6900K CPU
训练时间: 5-6.5min每个数据集
运行时间: 约5张显微照片每秒
2. 通用模型
在45个数据集上训练了通用模型,包括26个手工挑选数据集,9个模拟数据集和10个纯污染数据集。
结果表明使用训练得到的通用模型对未知数据集进行颗粒挑选,也能得到不错的结果。
* 补充论文
1. 论文题目
The evolution of SPHIRE-crYOLO particle picking and its application in automated cryo-EM processing workflows
2. 主要内容
介绍了crYOLO自开发以来的几个改进:
- 加入了纤维丝的挑选;
- 新的去噪技术,基于N2N去噪模型的
JANNI
算法; - 新的图形界面;
- 更通用的模型:在
>60
个数据集上训练得到; - 在自动化流程中的使用:已集成到
SPHIRE
、COSMIC
、RELION
中。
A u t h o r : C h i e r Author:Chier Author:Chier
标签:训练,crYOLO,显微照片,颗粒,挑选,数据,全自动 来源: https://blog.csdn.net/m0_38068229/article/details/110219746