当前位置: 首页 > news >正文

合肥网站的优化开公司流程

合肥网站的优化,开公司流程,百度推广账号,网络营销专业就业编辑 | 萝卜皮AlphaFold2 彻底改变了结构生物学#xff0c;能够以极高的准确性预测蛋白质结构。然而#xff0c;它的实现缺乏训练新模型所需的代码和数据。这些对于解决新任务是必要的#xff0c;例如蛋白质-配体复杂结构预测#xff1b;可用于调查模型学习的过程#xff…编辑 | 萝卜皮AlphaFold2 彻底改变了结构生物学能够以极高的准确性预测蛋白质结构。然而它的实现缺乏训练新模型所需的代码和数据。这些对于解决新任务是必要的例如蛋白质-配体复杂结构预测可用于调查模型学习的过程目前这一过程仍然知之甚少另外还可评估模型对折叠空间不可见区域的泛化能力。在这里哥伦比亚大学的 Mohammed AlQuraishi 团队联合哈佛大学、哈佛医学院等多个机构的研究人员开发了 OpenFold一种快速、内存高效且可训练的 AlphaFold2 实现和 OpenProteinSet最大的蛋白质多序列比对公共数据库。该团队使用 OpenProteinSet 从头开始训练 OpenFold完全匹配 AlphaFold2 的准确性。建立奇偶校验后研究人员通过使用精心设计的数据集对其进行再训练来评估 OpenFold 跨折叠空间进行泛化的能力。研究表明 OpenFold 在泛化方面非常稳健尽管训练集的大小和多样性极度减少包括二级结构元素类的近乎完全省略。通过分析 OpenFold 在训练过程中产生的中间结构进一步阐明了模型学习折叠蛋白质的方式研究人员发现空间维度是按顺序学习的。该研究以「OpenFold: Retraining AlphaFold2 yields new insights into its learning mechanisms and capacity for generalization」为题于 2022 年 11 月 22 日发布在 BioRxiv 预印平台。几十年来根据序列预测蛋白质结构一直是生物学的一项决定性挑战。基于将深度学习应用于多序列比对 (MSA) 和同源结构中编码的共同进化信息的一系列工作AlphaFold2 可以说已经解决了具有足够深 MSA 的天然蛋白质的问题。该模型已通过 DeepMind 的官方开源实现向公众开放已用于预测数亿种蛋白质的结构。这一实施使研究人员能够优化 AlphaFold2 的预测程序和用户体验并将其用作新算法中的一个模块包括用于蛋白质复合物预测、肽-蛋白质相互作用、结构排名等的算法。尽管具有出色的实用性但官方的 AlphaFold2 实现省略了模型复杂训练过程的代码以及运行它所需的计算量大的训练数据。这使得研究 AlphaFold2 的学习行为和对数据组成和模型架构变化的敏感性以及创建模型变体来处理新任务变得困难。鉴于 AlphaFold2 的成功它的许多新组件可能被证明对蛋白质结构预测以外的任务有用。例如使用蛋白质-蛋白质复合物的数据集对 AlphaFold2 进行再训练得到了 AlphaFold2-Multimer这是预测蛋白质复合物结构的最先进模型。然而直到最近这种能力一直是 DeepMind 独有的。为了解决这个缺点哥伦比亚大学的 Mohammed AlQuraishi 团队联合哈佛大学、哈佛医学院等多个机构的研究人员开发了 OpenFoldAlphaFold2 的可训练开源实现以及 OpenProteinSet一个包含 500 万个深度和多样化 MSA 的数据库它消除了最重要的计算障碍之一——数百万 CPU 小时——以 AlphaFold2 的规模训练新的蛋白质模型。图示OpenFold 与 AlphaFold2 的准确性相匹配。来源论文研究人员使用 OpenProteinSet 从头开始训练 OpenFold在预测质量上与 AlphaFold2 相匹配。除了新的训练代码和数据之外OpenFold 与 AlphaFold2 相比还有几个优势(i) 它在大多数蛋白质上的运行速度快三倍 (ii) 它使用更少的内存允许在单个 GPU 上预测极长的蛋白质和多蛋白质复合物(iii) 它是在 PyTorch 中实现的PyTorch 是使用最广泛的机器学习框架AlphaFold2 使用 Google 的 JAX。因此OpenFold 可以很容易地被最广泛的开发人员社区使用并与现有机器学习软件的丰富生态系统进行交互。研究人员使用 OpenFold 来了解模型如何学习折叠蛋白质重点关注训练中间阶段预测结构的几何特征并确定多个不同的行为阶段。具体来说通过分析多种分辨率下的预测结构并将它们分解为二级和三级元素研究人员发现 OpenFold 以交错的方式学习空间维度、二级结构元素和三级尺度。图示OpenFold 预测的维度增长。来源论文接下来由于 OpenFold 可以在约 3% 的训练时间内实现约 90% 的模型准确度于是研究人员对 OpenFold 进行了多次特殊删减版本的训练集再训练以量化其泛化到不可见蛋白质折叠的能力。令人惊讶的是该模型甚至对折叠空间的大省略也非常稳健但其泛化能力因蛋白质片段和折叠的空间范围而异。在更多样化但更小的数据集上训练模型时研究人员观察到了 OpenFold 更强大的性能甚至有些数据集小到只有 1,000 个实验结构。总而言之这些结果对 AlphaFold2 类型模型的学习行为产生了基本的新见解并为生物分子建模算法的开发提供了新的概念和实用工具。图示OpenFold 在省略训练集上的泛化能力。来源论文OpenFold 使两大领域的进步成为可能(i) 更深入地分析类似 AlphaFold2 模型的优势、劣势和学习行为(ii) 开发利用 AlphaFold2 模块的新生物分子模型。在这项工作中研究人员更专注于前者。首先通过分析部分训练模型的预测结构研究人员发现类似 AlphaFold2 的模型按顺序学习空间维度。这种行为对模型架构和训练方案的设计有影响。例如将物理先验知识整合到机器学习模型中是一个具有突出科学意义的研究领域。此类综合的努力产生了不同的结果事实上AlphaFold2 是一个非常成功的模型的开创性例子该模型几乎完全没有物理先验。它的学习行为说明了为什么合并这样的先验会很困难——在折叠的 1D 和 2D 学习阶段所有预测的结构都表现出严重违反基本化学定律和大量空间冲突的情况。但是禁止此类违规行为会极大地改变 AlphaFold2 的学习行为。事实上在最初的 AlphaFold2 论文中未经进一步阐述就观察到启用违规损失以惩罚空间冲突和非物理键长会破坏训练的稳定性。研究人员对空间折叠学习阶段的观察为这种观察提供了解释。图示二级结构类别是按顺序学习的。来源论文AlphaFold2 针对此问题采用的解决方案即仅在训练的后期阶段对违反自然规律的行为进行惩罚提出了一种更广泛的策略来解决物理先验的合并问题这是一种课程学习方法其中模型首先可以自由提取信息并从数据中学习之后可以逐渐引入更复杂的物理先验从而提高模型的泛化能力。正如对 OpenFold 所做的那样分析学习轨迹为何时可以将此类先验注入训练过程提供了具体的时间表。其次研究人员观察到空间坍缩阶段对应于最终预测结构的不完美低维 PCA 投影。鉴于其他端到端可区分蛋白质结构模型不表现出相同的行为所以这种情况无法从文献中得到解释。虽然没有直接证据但研究人员怀疑 AlphaFold2 架构的某些方面——特别是 FAPE 损失函数——可能会导致这种现象。研究人员推测可能类似 PCA 的级数允许模型通过首先解决对 FAPE 损失具有最大收益的问题来贪婪地最小化错误根据定义FAPE 损失位于地面实况结构的最大主成分上。解决后该模型将继续处理与其他低维投影相关的较小问题。图示新 FAPE 钳位协议的稳定性。来源论文如果是这种情况学习过程中空间维度的交错将取决于训练集中蛋白质的几何形状。完全由细长管状蛋白质组成的训练集的极端情况会产生更加显著的交错阶段。相反由完美球形蛋白质组成的训练集将在所有空间维度上呈现均匀增长。这种行为是整个训练集的函数不一定会反映在单个蛋白质中。无论如何这些观察结果表明有可能通过学习课程来故意简化分子建模中的其他难题在该学习课程中首先训练「玩具」模型以预测目标分子的低维投影然后再负责预测其完全实现的实例化 。图示OpenFold 对比 AlphaFold2 预测速度。来源论文研究人员评估了 OpenFold 从大幅缩小的训练集中学习的能力。值得注意的是研究人员发现即使数据集大小减少 100 倍模型的性能也比第一版 AlphaFold 更高。换句话说AlphaFold2 中引入的架构进步使其数据效率比其前身高出 100 倍后者在推出时树立了新的技术水平。这些结果表明与更大的数据集相比架构创新可以对模型准确性产生更深远的影响特别是在数据采集成本高昂或耗时的领域如生物分子系统中经常出现的情况。然而值得注意的是AlphaFold2 通常学习 MSA 结构关系而不是序列结构关系。MSAs 隐含地编码了大量的结构知识正如早期基于协同进化的结构预测方法所证明的那样这些方法完全不受监督不使用实验结构数据。因此AlphaFold2 架构对不表现出共同进化信号的问题的适用性仍未得到证明。该团队的数据省略结果可以根据最近对大型基于 transformer 的语言模型的研究进行解释这些研究揭示了广泛适用的「缩放法则」该法则将模型准确性预测为模型大小、使用的计算和训练集大小的简单函数。当不受这三个支柱中任何一个的限制时模型会从对其他两个支柱的投资中受益。这些观察主要集中在基于 transformer 的架构上AlphaFold2 就是一个例子但最近的工作揭示了其他架构的类似行为。尽管确定 AlphaFold2 的精确缩放属性并不是该团队关注的重点但他们的结果表明它几乎不受 PDB 的大小或多样性的限制从而激发了对其架构的更大实例的潜在开发。视频蛋白折叠过程示例。来源论文OpenFold 为未来旨在改进 AlphaFold2 架构并将其重新用于新的分子建模问题的工作奠定了基础。自 2021 年 11 月该团队发布代码库以来已经进行了多项构建和扩展 OpenFold 的工作。其中包括用于蛋白质结构预测的 ESMFold 方法它用蛋白质语言模型取代了 MSA以及 FastFold这是一项社区工作已经实现了包括快速模型并行训练和推理在内的重大改进。研究人员希望未来的工作能够通过反汇编 OpenFold 来进一步解决蛋白质结构预测之外的问题。例如evoformer 模块是用于推理进化相关序列的通用原语。DNA 和 RNA 序列也表现出共同进化信号其努力旨在从快速实现的 MSA 预测 RNA 结构。进化生物学中更基本的问题例如系统发育推断可能证明适用于类似进化者的架构这似乎是合理的。类似地AlphaFold2 的结构模块特别是不变点注意机制为聚合物空间推理提供了一种通用方法可以进一步扩展到任意分子。研究人员预计随着蛋白质结构和其他生物分子从要预测的输出转变为要使用的输入依赖空间推理能力的下游任务将变得越来越重要。也许 OpenFold 将在促进这些发展方面发挥关键作用。论文链接https://www.biorxiv.org/content/10.1101/2022.11.20.517210v1相关报道https://twitter.com/gahdritz/status/1595420944880779266人工智能 × [ 生物 神经科学 数学 物理 材料 ]「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。欢迎关注标星并点击右下角点赞和在看。点击阅读原文加入专业从业者社区以获得更多交流合作机会及服务。
http://wiki.neutronadmin.com/news/109085/

相关文章:

  • 盐城市网站建设公司竞拍网站建设
  • 医疗行业网站备案制作网页的思路
  • 广州seo技术培训搜索引擎seo关键词优化效果
  • 岳阳网站建设哪里有广州市建设和水务局网站
  • 网站整合营销建设哈密建设集团有限责任公司网站
  • 做网站智能工具交换友情链接的注意事项
  • 品牌网站建设小i蝌蚪网站建设上海
  • 怎么创建图片网站做网站里面的内容
  • 成都哪里可以做网站做网站的开发软件是什么
  • 成都百度seo主要做什么工作内容
  • 个人做网站 用什么语言重庆建设厂招聘信息网站
  • 做影视网站版权问题seo整站优化的思路及步骤
  • 北京网站建设手机app电子商务wordpress页面立体效果
  • 电子商务与网站建设做网站的抬头怎么做
  • 小说网站流量怎么做wordpress编辑页面如何修改
  • 昆山市有没有做网站设计的自己做彩票网站简单吗
  • 网站添加可信任站点怎么做南京高端网站建设公司哪家好
  • 订阅号可以做网站链接吗网站开发软件开发流程图
  • 设计彩票网站开发手机上有趣的网站
  • 网站开发 不好 怎么说嵌入式软件开发工具有哪些
  • 菏泽兼职网站建设wordpress整站克隆
  • 惠州3d网站建设全景高德北斗导航
  • 东莞万江网站制作有哪个网站有免费视频素材
  • 上海专业高端网站建设服株洲做网站渠道电话
  • 网站开发环境的意义企业融资规划师证书
  • 现在还有人用asp做网站wordpress adminlte
  • 找外包做网站要多久网站制作容易吗
  • idc网站模板下载潍坊做网站的那家好
  • 网站加载速度莱芜新闻联播直播
  • 手机端网站界面如何做购物小程序源码