结晶实验评分的重要性
评分是任何结晶实验中的关键步骤,因为它直接影响大分子结构测定的成功与否。准确的评分能区分有希望的晶体条件与非生产性条件,从而节省宝贵的时间和资源。通过系统评估晶体质量和形态,研究人员可以优先考虑最有希望的条件进行进一步优化,从而实现更高效的结构测定。
技术进展与手动液滴评分面临的挑战
实验室自动化和成像技术的最新进展显著提高了实验通量,并加速了结构生物学研究。此外,实验室信息管理系统的开发,例如 Formulatrix 的 Rock Maker® ,进一步简化了蛋白质结晶工作流程。然而,由于通量低、存在主观偏见、人员间差异以及时间和劳动密集等问题,手动液滴评分仍然是一个瓶颈。
结晶实验手动液滴评分的差异性
2021年,我们进行了一项研究,以评估结晶实验手动液滴评分的差异性。我们向 7 位晶体学家提供了 1200 张图像,要求他们使用 MARCO 的 CPOX 分类系统进行手动标记。研究显示,七位晶体学家仅对约 50% 的图像达成一致意见,突显了手动结晶评分的显著差异性。
A) 晶体学家在总体图像评分方面的一致性
B) 晶体学家在图像评分(含晶体)方面的一致性
此外,我们还分析了晶体学家之间的一致性,特别是在晶体识别方面。该数据集包含 205 张有晶体的图像,结果显示仅对 41% 的图像一致同意 。这表明,与其他图像类别相比,识别晶体尤其具有挑战性。这项研究强调需要一种基于 AI 的自动评分模型来处理这项耗时任务,让研究人员能够专注于工作中更关键的方面。
基于 AI 的自动化作为解决方案
利用人工智能自动化评分过程,规避了结晶实验中的这些障碍。它不仅提供更高的通量,而且不受疲劳、匆忙或分心等因素影响,确保持续不断的稳定性能。此外,当基于多样化数据集进行训练时,AI 可以消除人为偏见,从而实现更可靠、更准确的图像分析。
MARCO 简介
MARCO 是此类基于 AI 的评分模型之一,全称为"结晶结果机器识别",是谷歌开发的一种基于卷积神经网络的算法。尽管 MARCO 与 Rock Maker 的集成有助于减少时间和精力投入,但由于训练数据集和类别定义的局限性,其晶体检测准确率较低。
Sherlock by Formulatrix
为了解决这些局限性,Formulatrix 开发了基于 AI 的自动评分模型——Sherlock。与 MARCO 相比,Sherlock 在更大、更多样化的实践数据集上进行了训练,该数据集包含来自 41 个合作实验室的超过 800,000 张图像,从而能够实现准确可靠的晶体识别。此外,它将液滴分为六个不同的类别:晶体、晶体-其他、相分离、沉淀、澄清和污染物。"污染物"类别的引入使模型能够识别并过滤掉包含可能被误认为是晶体的人为假象的图像,从而有效清理数据集。同时,"晶体-其他"类有助于正确识别具有挑战性的情况,例如嵌入沉淀物中的晶体,而 MARCO 经常对此类情况误判。此外,Sherlock 利用基于形态学的分类系统来识别适合进行 X 射线衍射分析的高质量晶体。
另一个有助于提高 Sherlock 晶体检测准确性的关键因素是局部特征检测或称分块处理。在图像发送给 Sherlock 进行评分之前,它们会被分割成更小的部分,从而能够进行更详细的分析,以检测 MARCO 可能漏掉的小晶体。
Sherlock 中的图像分块处理
MARCO 与 Sherlock 性能比较
一项基于来自不同实验室的6662张多样化图像的对比研究表明,Sherlock在整体准确率(81.27% vs. 66.96%)、晶体召回率(71.38% vs. 45.36%)和晶体精确度(73.87% vs. 36.8%)方面均优于MARCO。
Sherlock 与 MARCO 的性能比较。整体准确率表示模型与科学家在晶体和非晶体标注上的一致性。晶体召回率表示正确识别为晶体的晶体百分比。晶体精确度反映了正确识别为非晶体的非晶体比例。
FAQs
蛋白质结晶实验中的自动图像评分是什么?
蛋白质结晶实验中的自动图像评分涉及使用预训练的基于 AI 的自动评分模型来分析液滴图像,并根据晶体存在的可能性分配分数。
类似 MARCO 以及 Sherlock 的AI 驱动的结晶评分如何增强蛋白质晶体检测?
像 MARCO 和 Sherlock 这样的 AI 驱动结晶评分工具在广泛多样的图像数据集上进行了训练,使它们能够高精度地识别晶体特征。通过最大限度地减少人为偏见和差异性,这些模型提高了大型数据集中蛋白质晶体检测的可靠性和一致性。
与手动液滴评估相比,基于 AI 的结晶评分有哪些优势?
手动液滴评估通常耗时、主观且易出现意见不一致的情况,而基于 AI 的结晶评分提供更快速、无偏见且高度一致的图像分析。这种自动化最大限度地减少了人为错误,并使研究人员能够专注于实验设计和数据解读,而不是重复性的图像评估。
与专家晶体学家的手动评分相比,基于 AI 的结晶评分可靠性如何?
基于 AI 的结晶评分的可靠性取决于开发算法所用训练数据的质量和多样性。训练有素的模型在结晶实验评分方面可以达到与专家晶体学家相当的准确性。