首个专门针对脂质-蛋白复合物的标准化高质量基准集-创锋一号

摘要

脂质-蛋白相互作用几乎参与所有细胞通路，也是医药、制药与生物技术领域发展的重要基础。然而，相较于蛋白-蛋白、蛋白-小分子、蛋白-核酸复合物，脂质-蛋白结合构象的计算预测技术发展相对滞后，核心原因是目前缺乏覆盖全面的真实结构基准数据集。本文构建了LiPP（脂质-蛋白结合构象）基准数据集，该数据集经过人工筛选整理，包含311个非冗余、非环式脂质-蛋白复合物晶体结构，覆盖多种蛋白折叠类型与脂质类别。依托LiPP数据集，本研究系统评测了5款主流计算工具的性能：3款人工智能共折叠工具（AlphaFold 3、Chai-1、全原子RoseTTAFold）、1款人工智能对接工具（DiffDock-L）以及1款基于物理原理的对接工具（AutoDock Vina）。

不同软件预测得到的脂质结合构象在物理合理性上存在明显差异：基于物理原理的对接工具AutoDock Vina与部分人工智能预测工具（AlphaFold 3、Chai-1）基本能够维持分子内与分子间作用约束；而另一部分人工智能工具（DiffDock-L、全原子RoseTTAFold）则频繁出现约束违规问题。以「全原子均方根偏差（RMSD）<2埃（Å）」为判定标准，AlphaFold 3的预测成功率最高，达76.1%；但针对模型训练过程中未接触过的全新结构，其成功率降至 47.2%。本研究同时发现，各款软件区分「精准构象」与「失真构象」的置信评分能力存在显著差距。

研究结果表明，现有人工智能方法与物理基方法均亟需优化，以适配脂质分子尺寸、类别、构象柔性等特征带来的建模难点。LiPP基准数据集为各类脂质-蛋白复合物建模任务提供了标准化评测平台，明确了当前主流对接、共折叠方法在解析脂质-蛋白相互作用特征时存在的固有缺陷，可为下一代面向脂质生物学研究的计算工具开发提供指导。

https://github.com/mcshanlab/LiPP_Benchmark

andrew.mcshan@chemistry.gatech.edu

#脂质蛋白相互作用 #基准数据集 #LiPP #分子对接 #共折叠 #构象预测 #均方根偏差 #物理合理性 #人工智能建模

引言

介绍脂质的化学分类、脂质-蛋白相互作用的生物学功能、作用模式，以及脂质-蛋白建模领域的研究现状与现存问题。

图1八大类脂质的代表性结构（LIPID MAPS分类体系）

LIPID MAPS分类体系定义的8大类脂质代表性化学结构，并标注每类示例分子的PubChem化合物编号（CID）。各类脂质示例如下：脂肪酰类——硬脂酸（PubChem CID：5281）；鞘脂类——C15神经酰胺（PubChem CID：86269023）；甘油磷脂类——16:0−18:1磷脂酰丝氨酸（PubChem CID：46891789）；甘油脂类——三棕榈酸甘油酯（PubChem CID：11147）；异戊二烯脂类——β-胡萝卜素（PubChem CID：5280489）；固醇类——麦角固醇（PubChem CID：444679）；聚酮类——放线紫红素（PubChem CID：381343764）；糖脂类——脂质X（PubChem CID：123907）。彩色方框标注了各类脂质特征化学单元与官能团。

材料与方法

LiPP测试集、预截止集构建及数据集相似度分析

表1本研究评测的5款分子对接、共折叠工具的训练/校准数据集信息

结果

LiPP基准数据集整体特征分析

图2 LiPP基准数据集中脂质与蛋白的分布特征

统计LiPP基准数据集内脂质、蛋白的分布规律。由于同一脂质/蛋白可参与多个脂质-蛋白复合物，统计分为全部样本与唯一样本2类：脂质唯一性依据化学组分字典（CCD）编号判定，蛋白唯一性依据序列聚类结果判定。

脂质「全部样本」为蓝色、「唯一样本」为黄色；蛋白「全部样本」为粉色、「唯一样本」为绿色。

(A) 柱状图：LiPP数据集中8大类脂质的出现频次分布；

(B) 柱状图：LiPP中各类唯一脂质在BioDolphin数据库中的覆盖占比；

(D) 直方图：数据集中蛋白的氨基酸序列长度分布；

(E) 柱状图：数据集中各类功能蛋白的占比分布。

脂质-蛋白复合物模型的物理合理性

图3 基于PoseBusters套件的脂质-蛋白复合物模型物理合理性检测结果

采用PoseBusters检验套件对预测模型进行物理合理性评估。模型需通过某一分类下全部子检测项，才可判定为该分类合格。

(A) 散点图：各工具在化学有效性、分子内有效性、分子间有效性3大分类下的样本合格率；

(B) 柱状图：各工具在 PoseBusters 所有单项检测中的样本合格率；

违规案例包括：

① 双键立体化学异常：DiffDock-L预测的油酸分子（BioDolphin编号：BD1hms-A-AOLA1；PDB 编号：1HMS，紫色结构）；

② 4面体手性异常：AlphaFold 3预测的脂质（CCD编号：0CO，BioDolphin编号：BD3cs6-A-A0CO1；PDB编号：3CS6，青色结构）；

③ 蛋白-脂质最小间距异常：全原子RoseTTAFold预测的5-羟色胺N-乙酰转移酶-辅酶A-乙酰色胺复合物（BioDolphin编号：BD1cjw-A-A-COT1；PDB编号：1CJW），绿色球体标记蛋白与脂质的原子重叠冲突区域；

④ 蛋白空间体积重叠：1型丝束蛋白D-甘露糖特异性粘附蛋白-脂质复合物（CCD编号：FYZ，BioDolphin编号：BD4av5-A-A-FYZ1；PDB编号：4AV5），绿色结构为AutoDock Vina的预测脂质构象。

主流计算方法对脂质-蛋白相互作用的预测性能

图4 五款计算工具在LiPP数据集上的脂质构象预测成功率对比

基于LiPP基准集331个脂质-蛋白复合物，对比5款工具的脂质构象预测成功率。子图标注N为对应分类下的复合物数量。

判定标准：以脂质全原子均方根偏差（RMSD）低于指定阈值为预测成功；深色柱代表「同时满足RMSD < 2 Å + PoseBusters检验合格（PB-valid）」的严格成功率。

(A) 柱状图：分别以RMSD < 2 Å、< 2.5 Å、< 3 Å为阈值的整体预测成功率；

(B) 柱状图：以RMSD < 2 Å为阈值，按脂质分子量分组的预测成功率；

表2五款计算工具的预测成功率（判定标准：仅脂质RMSD < 2 Å）：LiPP数据集与小分子基准集PoseBusters对比

表3五款计算工具的严格预测成功率（判定标准：脂质RMSD < 2 Å + PoseBusters检验合格）：LiPP数据集与小分子基准集PoseBusters对比

图5 CD1d蛋白结合C8PhF鞘脂抗原的预测构象典型案例（PDB编号：3GMO；BioDolphin编号：BD3gmo-A-A-C8F1）

灰色结构为X射线解析的天然复合物（脂质以棍状模型展示，蛋白以卡通模型展示）。该结构发布于所有工具训练截止日期之前，可能被纳入训练数据。各子图标注脂质RMSD、蛋白结构评分及工具内置置信指标：

(A) AlphaFold 3预测构象（青色）：与天然构象高度吻合；

(B) 全原子RoseTTAFold预测构象（粉色）：脂质头部取向正确，但2条脂肪酰链相对天然构象旋转约180°；

(D) DiffDock-L预测构象（紫色）：脂质定位于结合口袋内，取向存在小幅偏差；

(E) AutoDock Vina预测构象（绿色）：脂质头部在CD1d结合沟槽内位置偏移。

工具在训练截止日期前后结构上的性能差异

图6 五款工具在LiPP测试集（全新未训练结构）上的预测性能与数据集相似度分析

(A) 柱状图：LiPP测试集（36个复合物，均为工具训练截止日期后发布的全新结构）的预测成功率；浅色柱为单一RMSD阈值判定，深色柱为RMSD +物理合理性双重判定；

(B) 蛋白聚类可视化：基于莱登（Leiden）算法对LiPP全部复合物的蛋白进行聚类（LC代表蛋白聚类簇）。左图：按蛋白聚类簇着色；右图：蓝色为预截止集样本、红色为测试集样本；

(C) 脂质相似度分析：左图为参考脂质（肉豆蔻酸）与不同相似度脂质（月桂酸、十一醛、杨梅黄酮）的化学结构对比，T 为谷本系数（相似度评分，0 =无相似，1 =完全一致）；右图：箱线图——按蛋白聚类簇分组，统计测试集脂质与预截止集中最相似脂质的谷本系数分布。

模型置信评分的区分能力

图7各工具内置评分与脂质RMSD的相关性分析（小提琴图）

基于LiPP全部数据集，采用小提琴图展示工具内置评分与脂质全原子RMSD的关联规律：

(A) AlphaFold 3：界面预测模板建模分数（ipTM），分数越高代表模型置信度越高；

(B) Chai-1：界面预测模板建模分数（ipTM），分数越高代表模型置信度越高；

(D) DiffDock-L：内置置信分，分数越高代表模型置信度越高；

(E) AutoDock Vina：结合亲和力（千卡/摩尔，kcal/mol），数值越负代表结合构象越稳定。

共折叠工具的蛋白结构误差分析

图8共折叠工具的蛋白结构预测精度分析

计算预测蛋白结构与天然蛋白结构的模板建模分数（TM-score），评估蛋白折叠精度：

(A) 箱线图：3款共折叠工具预测蛋白的TM-score整体分布；

(B-D) 散点图：蛋白TM-score与脂质RMSD的相关性。

其中AlphaFold 3、Chai-1额外区分高置信模型（pTM > 0.8）与低置信模型（pTM ≤ 0.8）。

详细总结

思维导图

5大工具综合优劣势总结

参考

J Chem Inf Model. 2026 Jun 10. doi: 10.1021/acs.jcim.6c01457.

The LiPP Benchmark Set for Modeling Lipid-Protein Complexes: Comparison of Co-Folding and Docking Methods

注：AI辅助创作，如有不当欢迎指出。内容仅供参考，不构成任何建议。

企业官网建设流程全解析

摘要

引言

材料与方法

结果

详细总结

参考

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

摘要

引言

材料与方法

结果

详细总结

参考

热门文章

文章分类

标签云

相关文章

深入解析恩智浦KV5x微控制器：Cortex-M7内核、低功耗与安全实战

英雄联盟Akari助手完全攻略：智能自动化提升你的游戏体验

深入解析NXP LS1046A安全引擎：关键寄存器与错误处理实战

需要专业的网站建设服务？