首个专门针对脂质-蛋白复合物的标准化高质量基准集
2026/6/13 14:55:53 网站建设 项目流程

摘要

脂质-蛋白相互作用几乎参与所有细胞通路,也是医药、制药与生物技术领域发展的重要基础。然而,相较于蛋白-蛋白、蛋白-小分子、蛋白-核酸复合物,脂质-蛋白结合构象的计算预测技术发展相对滞后,核心原因是目前缺乏覆盖全面的真实结构基准数据集。本文构建了LiPP(脂质-蛋白结合构象)基准数据集,该数据集经过人工筛选整理,包含311个非冗余、非环式脂质-蛋白复合物晶体结构,覆盖多种蛋白折叠类型与脂质类别。依托LiPP数据集,本研究系统评测了5款主流计算工具的性能:3款人工智能共折叠工具(AlphaFold 3、Chai-1、全原子RoseTTAFold)、1款人工智能对接工具(DiffDock-L)以及1款基于物理原理的对接工具(AutoDock Vina)。

不同软件预测得到的脂质结合构象在物理合理性上存在明显差异:基于物理原理的对接工具AutoDock Vina与部分人工智能预测工具(AlphaFold 3、Chai-1)基本能够维持分子内与分子间作用约束;而另一部分人工智能工具(DiffDock-L、全原子RoseTTAFold)则频繁出现约束违规问题。以「全原子均方根偏差(RMSD)<2埃(Å)」为判定标准,AlphaFold 3的预测成功率最高,达76.1%;但针对模型训练过程中未接触过的全新结构,其成功率降至 47.2%。本研究同时发现,各款软件区分「精准构象」与「失真构象」的置信评分能力存在显著差距。

研究结果表明,现有人工智能方法与物理基方法均亟需优化,以适配脂质分子尺寸、类别、构象柔性等特征带来的建模难点。LiPP基准数据集为各类脂质-蛋白复合物建模任务提供了标准化评测平台,明确了当前主流对接、共折叠方法在解析脂质-蛋白相互作用特征时存在的固有缺陷,可为下一代面向脂质生物学研究的计算工具开发提供指导。

https://github.com/mcshanlab/LiPP_Benchmark

andrew.mcshan@chemistry.gatech.edu

#脂质蛋白相互作用 #基准数据集 #LiPP #分子对接 #共折叠 #构象预测 #均方根偏差 #物理合理性 #人工智能建模

引言

介绍脂质的化学分类、脂质-蛋白相互作用的生物学功能、作用模式,以及脂质-蛋白建模领域的研究现状与现存问题。

图1八大类脂质的代表性结构(LIPID MAPS分类体系)

LIPID MAPS分类体系定义的8大类脂质代表性化学结构,并标注每类示例分子的PubChem化合物编号(CID)。各类脂质示例如下:脂肪酰类——硬脂酸(PubChem CID:5281);鞘脂类——C15神经酰胺(PubChem CID:86269023);甘油磷脂类——16:0−18:1磷脂酰丝氨酸(PubChem CID:46891789);甘油脂类——三棕榈酸甘油酯(PubChem CID:11147);异戊二烯脂类——β-胡萝卜素(PubChem CID:5280489);固醇类——麦角固醇(PubChem CID:444679);聚酮类——放线紫红素(PubChem CID:381343764);糖脂类——脂质X(PubChem CID:123907)。彩色方框标注了各类脂质特征化学单元与官能团。

材料与方法

LiPP测试集、预截止集构建及数据集相似度分析

表1本研究评测的5款分子对接、共折叠工具的训练/校准数据集信息

结果

LiPP基准数据集整体特征分析

图2 LiPP基准数据集中脂质与蛋白的分布特征

统计LiPP基准数据集内脂质、蛋白的分布规律。由于同一脂质/蛋白可参与多个脂质-蛋白复合物,统计分为全部样本与唯一样本2类:脂质唯一性依据化学组分字典(CCD)编号判定,蛋白唯一性依据序列聚类结果判定。

脂质「全部样本」为蓝色、「唯一样本」为黄色;蛋白 「全部样本」为粉色、「唯一样本」为绿色。

(A) 柱状图:LiPP数据集中8大类脂质的出现频次分布;

(B) 柱状图:LiPP中各类唯一脂质在BioDolphin数据库中的覆盖占比;

(C) 直方图:数据集中脂质的分子量(道尔顿,Da)分布;

(D) 直方图:数据集中蛋白的氨基酸序列长度分布;

(E) 柱状图:数据集中各类功能蛋白的占比分布。

脂质-蛋白复合物模型的物理合理性

图3 基于PoseBusters套件的脂质-蛋白复合物模型物理合理性检测结果

采用PoseBusters检验套件对预测模型进行物理合理性评估。模型需通过某一分类下全部子检测项,才可判定为该分类合格。

(A) 散点图:各工具在化学有效性、分子内有效性、分子间有效性3大分类下的样本合格率;

(B) 柱状图:各工具在 PoseBusters 所有单项检测中的样本合格率;

(C) 可视化示例:展示模型常见的合理性违规类型。左侧灰色结构为实验解析的天然脂质/复合物(真实结构)。

违规案例包括:

① 双键立体化学异常:DiffDock-L预测的油酸分子(BioDolphin编号:BD1hms-A-AOLA1;PDB 编号:1HMS,紫色结构);

② 4面体手性异常:AlphaFold 3预测的脂质(CCD编号:0CO,BioDolphin编号:BD3cs6-A-A0CO1;PDB编号:3CS6,青色结构);

③ 蛋白-脂质最小间距异常:全原子RoseTTAFold预测的5-羟色胺N-乙酰转移酶-辅酶A-乙酰色胺复合物(BioDolphin编号:BD1cjw-A-A-COT1;PDB编号:1CJW),绿色球体标记蛋白与脂质的原子重叠冲突区域;

④ 蛋白空间体积重叠:1型丝束蛋白D-甘露糖特异性粘附蛋白-脂质复合物(CCD编号:FYZ,BioDolphin编号:BD4av5-A-A-FYZ1;PDB编号:4AV5),绿色结构为AutoDock Vina的预测脂质构象。

主流计算方法对脂质-蛋白相互作用的预测性能

图4 五款计算工具在LiPP数据集上的脂质构象预测成功率对比

基于LiPP基准集331个脂质-蛋白复合物,对比5款工具的脂质构象预测成功率。子图标注N为对应分类下的复合物数量。

判定标准:以脂质全原子均方根偏差(RMSD)低于指定阈值为预测成功;深色柱代表「同时满足RMSD < 2 Å + PoseBusters检验合格(PB-valid)」的严格成功率。

(A) 柱状图:分别以RMSD < 2 Å、< 2.5 Å、< 3 Å为阈值的整体预测成功率;

(B) 柱状图:以RMSD < 2 Å为阈值,按脂质分子量分组的预测成功率;

(C) 柱状图:以RMSD < 2 Å为阈值,按LIPID MAPS八大脂质类别分组的预测成功率。

表2五款计算工具的预测成功率(判定标准:仅脂质RMSD < 2 Å):LiPP数据集与小分子基准集PoseBusters对比

表3五款计算工具的严格预测成功率(判定标准:脂质RMSD < 2 Å + PoseBusters检验合格):LiPP数据集与小分子基准集PoseBusters对比

图5 CD1d蛋白结合C8PhF鞘脂抗原的预测构象典型案例(PDB编号:3GMO;BioDolphin编号:BD3gmo-A-A-C8F1)

灰色结构为X射线解析的天然复合物(脂质以棍状模型展示,蛋白以卡通模型展示)。该结构发布于所有工具训练截止日期之前,可能被纳入训练数据。各子图标注脂质RMSD、蛋白结构评分及工具内置置信指标:

(A) AlphaFold 3预测构象(青色):与天然构象高度吻合;

(B) 全原子RoseTTAFold预测构象(粉色):脂质头部取向正确,但2条脂肪酰链相对天然构象旋转约180°;

(C) Chai-1预测构象(橙色):脂质定位于结合口袋内,取向存在小幅偏差;

(D) DiffDock-L预测构象(紫色):脂质定位于结合口袋内,取向存在小幅偏差;

(E) AutoDock Vina预测构象(绿色):脂质头部在CD1d结合沟槽内位置偏移。

工具在训练截止日期前后结构上的性能差异

图6 五款工具在LiPP测试集(全新未训练结构)上的预测性能与数据集相似度分析

(A) 柱状图:LiPP测试集(36个复合物,均为工具训练截止日期后发布的全新结构)的预测成功率;浅色柱为单一RMSD阈值判定,深色柱为RMSD +物理合理性双重判定;

(B) 蛋白聚类可视化:基于莱登(Leiden)算法对LiPP全部复合物的蛋白进行聚类(LC代表蛋白聚类簇)。左图:按蛋白聚类簇着色;右图:蓝色为预截止集样本、红色为测试集样本;

(C) 脂质相似度分析:左图为参考脂质(肉豆蔻酸)与不同相似度脂质(月桂酸、十一醛、杨梅黄酮)的化学结构对比,T 为谷本系数(相似度评分,0 =无相似,1 =完全一致);右图:箱线图——按蛋白聚类簇分组,统计测试集脂质与预截止集中最相似脂质的谷本系数分布。

模型置信评分的区分能力

图7各工具内置评分与脂质RMSD的相关性分析(小提琴图)

基于LiPP全部数据集,采用小提琴图展示工具内置评分与脂质全原子RMSD的关联规律:

(A) AlphaFold 3:界面预测模板建模分数(ipTM),分数越高代表模型置信度越高;

(B) Chai-1:界面预测模板建模分数(ipTM),分数越高代表模型置信度越高;

(C) 全原子RoseTTAFold:链间预测对齐误差(inter-PAE),分数越低代表模型置信度越高;

(D) DiffDock-L:内置置信分,分数越高代表模型置信度越高;

(E) AutoDock Vina:结合亲和力(千卡/摩尔,kcal/mol),数值越负代表结合构象越稳定。

共折叠工具的蛋白结构误差分析

图8共折叠工具的蛋白结构预测精度分析

计算预测蛋白结构与天然蛋白结构的模板建模分数(TM-score),评估蛋白折叠精度:

(A) 箱线图:3款共折叠工具预测蛋白的TM-score整体分布;

(B-D) 散点图:蛋白TM-score与脂质RMSD的相关性。

其中AlphaFold 3、Chai-1额外区分高置信模型(pTM > 0.8)与低置信模型(pTM ≤ 0.8)。

详细总结

思维导图

5大工具综合优劣势总结

参考

J Chem Inf Model. 2026 Jun 10. doi: 10.1021/acs.jcim.6c01457.

The LiPP Benchmark Set for Modeling Lipid-Protein Complexes: Comparison of Co-Folding and Docking Methods

注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询