html5网站开发软件,如何免费制作微信小程序,替别人做设计的网站,seo搜索优化是什么意思文章目录 1. 文章简介2. 前言3. 方法3.1 模型框架 4. 结果4.1 已知隐式口袋在分子动力学模拟分析迅速打开4.2 图神经网络模型能够准确预测模拟中口袋的动态变化4.3 隐式口袋数据集数据集揭示了新的隐式口袋形成的模式4.4 PocketMiner能够从无配体的蛋白结构中精准预测预测口袋4… 文章目录 1. 文章简介2. 前言3. 方法3.1 模型框架 4. 结果4.1 已知隐式口袋在分子动力学模拟分析迅速打开4.2 图神经网络模型能够准确预测模拟中口袋的动态变化4.3 隐式口袋数据集数据集揭示了新的隐式口袋形成的模式4.4 PocketMiner能够从无配体的蛋白结构中精准预测预测口袋4.5 PocketMiner预测了人类蛋白组中的数千个隐式口袋。 总结 1. 文章简介
标题Predicting locations of cryptic pockets from single protein structures using the PocketMiner graph neural network 期刊 Nature communictions 团队华盛顿大学生物化学与分子生物物理系 DOIhttps://doi.org/10.1038/s41467-023-36699-3
2. 前言
靶点的成药口袋是药物研发的起点而除了在自然状态下显而易见的”显式口袋“外。还存在一类由于蛋白结构的动态变化而形成的隐式口袋。靶向隐式口袋提供了新的药物研发可能比如说
目前因在基本态结构中缺乏口袋而被认为”不可成药“的蛋白可能经由隐式口袋进行靶向。靶向隐式口袋的分子同样能够通过抑制或者激活调控蛋白的功能显式位点的口袋往往高度保守并出现在多类蛋白中。因此相较于靶向显示口袋的分子靶向隐式口袋的分子具有更高的特异性。
虽然隐式口袋是诱人的的药物靶标但定位和靶向他们仍然非常具有挑战性大多数已知的隐式口袋的发现都是通过筛选或者优化命中化合物的时候偶然发现。此外动力学模拟通过计算模拟了蛋白质在溶液中动态结构变化并提供了蛋白结构的集合这些结构中所揭露隐式口袋可以作为药物设计的模版。但动力学模拟所需要的计算资源较高使得其难与用于大规模的隐式口袋筛选。
因此本篇文章提出训练了一个图模型PocketMiner用于预测蛋白中哪一块区域有可能在分子动力学模拟过程中打开从而形成隐式口袋。 3. 方法
3.1 模型框架 模型框架采用的是GVP-GNN。相较于传统的GNN其创新点就是加入了如下图所示的GVP模块 GVP的输入包含标量s和向量V首先对向量V做了一个线性变换得到Vh之后对Vh进行L2正则化并将之与s拼接到一起。从而使得向量信息和标量信息之间形成一个信息交互。
有兴趣的可以去看看原文https://arxiv.org/abs/2009.01411
4. 结果
4.1 已知隐式口袋在分子动力学模拟分析迅速打开
对16个已知具有隐式口袋的蛋白进行了动力学模拟首先每个蛋白口袋进行了10次并行40ns模拟并基于Fast算法对模拟轨迹进行聚类取所有轨迹的聚类中心作为下一次模拟的起始构像并再进行10次并行的40ns模拟。上述过程一共循环了5次基于LIGSITE计算口袋的体积如果大于或等于结合态的口袋体积即认为口袋已打开具备了容纳配体的能力。以下是模拟的结果 A和B图是一个简单的case展示可以看到相对于apo态隐式口袋的体积在经过模拟之后明显扩张了。 图C展示的是GluR2蛋白体系在模拟过程中的隐式口袋体积大小分布情况横坐标是迭代的次数纵坐标是口袋体积结果显示在第一次的迭代后隐式口袋就已打开。 D图是多个蛋白体系的C图的集合橙色的小提琴图代表的是第一次迭代后的口袋体积而白色则代表的5次迭代后的口袋体积。横坐标代表的与Holo态相比的口袋倍数。即大于等于1就可以认为隐式口袋已打开。可以看到在15个蛋白体系中(有一个蛋白体系中的口袋在apo情况下比holo态还大舍弃掉了)有13个体系在第一次迭代口袋就已经打开。另外的两个体系中国中AMPA在第五次迭代中口袋打开了只有Niemann-PickC2 Protein体系的口袋一直没打开。
总而言之对于大多数较小的蛋白质只要有短暂的模拟就可能足以发现隐蔽的口袋。 这一发现表明识别APO态上隐式口袋的任务可以简化为训练一个模型去预测在短暂的分子动力学模拟时间窗口内(如40ns)口袋能否能够形成。
4.2 图神经网络模型能够准确预测模拟中口袋的动态变化
模型的训练数据集一共包含37个蛋白。其中16个蛋白是来自上一节种所整理的数据其余蛋白来自课题组之前关于隐式口袋的动力学模拟数据包括15个SARS相关蛋白和6个Ebolavirus VP35蛋白。和上一节一样这些动力学模拟的数据全部由40ns的片段组合而成一共2400个40ns的片段。从中提取了每个片段的初始构象共941550个氨基酸标注数据用于模型的训练。 图A展示的是数据标注的方式。训练的标签为氨基酸是否能够在接下来40ns的动力学模拟任意时刻中参与形成隐式口袋的2进制标签。判断的标准基于ligsite计算每个氨基酸周围5A的网格点参与组成的口袋相对于apo状态的体积变化大于或等于40 A 3 A^3 A3d。
图B和图C展示的是模型训练采用的五折交叉验证(基于37个蛋白而非MD轨迹)中的最优模型的PR曲线和AUC曲线。可以看到GVP-GNN模型要强于3D-CNN模型且AUC达到了0.83。这些结果说明当给定蛋白质的天然折叠状态结构时无需计算中间状体(例如使用MD模拟)也可以识别分子动力学模拟中隐式口袋形成的位点
4.3 隐式口袋数据集数据集揭示了新的隐式口袋形成的模式
从PDB数据库和已公布的数据集中提取了38个apo-holo蛋白结构对包含39个隐式口袋。通过检视这些蛋白结构对作者发现许多隐式口袋的形成是通过closing motion形成的而非openning motion。closing motion的蛋白结构在apo态下相隔甚远因此在apo态下几乎没有口袋而在holo态下蛋白结构聚拢而成壁(wall)或盖子(lid)从而形成了一个可以供配体结合的空腔 (图D)。作者将这样的口袋命名为“reverse”口袋 大多数的隐式口袋都由单一的motion形成。而在forward和reverse的口袋中总共观察到了4种常见的结构重排如下图所示 图Aloops可以移开为进入的配体创造空间或夹紧在配体上方形成壁(wall)或盖子(lid) 图B二级结构可以发生偏移或者旋转 图C二级结构和loops之间可以发生相互转换 图Dinterdomain可以创造一个可供配体结合的空腔
4.4 PocketMiner能够从无配体的蛋白结构中精准预测预测口袋
鉴于GVP-GNN能够准确预测模拟中的结合口袋位置作者接下来进一步研究了这种网络架构是否能够用于预测实验结构中的隐式口袋形成的位置。模型的训练数据就是第二节中的的37个蛋白的apo态但这次除了ligsite的数据方法还引入了fpocket的口袋成药性打分。最终的模型经由ligsite标注的数据训练了20个epoch由经fpockt的标注的数据refine了一个epoch。
模型的测试集由三部分组成首先是第三节中所获取的正集以及中这样的高度刚性的蛋白(如下图1B)还有已经经过了大量实验的蛋白。作者认为如果一个蛋白已经有了大量的Holo态那当这些Holo态聚合到一起时没有ligand结合的区域就可以认为是无法形成隐式口袋的可作为训练的负集使用(如下图2)。测试集之后又经历了两次过滤
负集全部经由MD检验在40ns能不会参与形成口袋所有测试集蛋白序列都与训练集中的蛋白序列做了序列比对删除了一致性大于百分之55的蛋白结构。
最终测试集一共包含35个蛋白23个能形成隐式口袋的正集4个超刚性蛋白以及7个经过了大量实验筛选的蛋白。总计563个正集氨基酸和1283个负集氨基酸。下图1是模型的性能情况 residues that do not form cryptic pockets in our test set. 图1: APocketMiner图形神经网络准确地检测了隐藏口袋形成的高的可能性区域(红色)其中就包括ligand的结合区域。该区域有一个loop在Holo态下打开了形成了一个隐藏口袋。 B高刚性蛋白结构的展示 C和D模型性能的展示可以看到相对于以前的监督学习方法PocketMiner的AUC稍有提升。但PR曲线在高回收率(0.6~0.8)下预测的假阳性更少这说明模型的预测错误率是相对下降了的。特别是针对超刚性蛋白PocketMinder相对于CryotoSite有一个整体的提升。下表为来给那个算法的准确率 图2 将所有的holo态结合到一起如果周围5A内不含ligand。则认定该氨基酸无法形成隐式口袋(灰色)反之标红。
4.5 PocketMiner预测了人类蛋白组中的数千个隐式口袋。
之后作者利用上述模型去预测了超过10000个人体基因组蛋白进行了预测将预测结果分为了三类Groud state pocketCriptic pocket 和No cryptic pocket。 分别对应着同时包含显示口袋或隐式口袋的蛋白仅包含隐式口袋的蛋白以及未找到相关口袋的蛋白(图A), 可以看到有近百分之三十的蛋白仅仅包含隐式口袋这说明即使在一个蛋白在自然状态下没有显示出明显的小分子口袋下对其进行进行药物筛选依旧是有意义的。为了证明这一观点作者将PocketMiner应用到了癌症相关通路Jak/Stat的几个蛋白上包括下图中所示的PIM2PIM2已经有经过drug筛选的正构口袋。 图A 人体基因组蛋白的口袋类型比例Groud state pocketCriptic pocket 和No cryptic pocket。 分别对应着同时包含显示口袋或隐式口袋的蛋白仅包含隐式口袋的蛋白以及未找到相关口袋的蛋白 图B: Jak/Stat 信号通路 图CPIM 2 激酶的Holo态结构 图DPocketMiner预测的隐式口袋分布 图EPIM 2的MD结果显示在PocketMiner预测的隐式口袋处确实出现了相应的口袋 总结
1. Pocket Miner能够基于Apo态的蛋白结构去精准预测其中的隐式口袋位置(AUC: 0.87), 并且实现了相对于传统监督学习方法CryptoSite实现了1个数量级的速度提升(1000) 2. 基于MD能够有效发现已知的隐式口袋并且并不需要长时间的模拟400ns的模拟即可。 3. 在人体基因组蛋白的PocketMiner预测中发现了大量的仅含隐式口袋的蛋白说明目前的药物发现的靶标范围是能进一步扩充的。