商城网站建设讯息,wordpress 批量修改分类,网页小游戏玩不了怎么办,互联网营销的方式有哪些论文解析-moETM 参考亮点动机发展现状现存问题 功能方法Encoder改进Decoder改进 评价指标生物保守性批次效应移除 实验设置结果多组学数据整合cell-topic mixture可解释性组学翻译性能评估RNA转录本、表面蛋白、染色质可及域调控关系研究1. 验证同一主题下#xff0c;top gene… 论文解析-moETM 参考亮点动机发展现状现存问题 功能方法Encoder改进Decoder改进 评价指标生物保守性批次效应移除 实验设置结果多组学数据整合cell-topic mixture可解释性组学翻译性能评估RNA转录本、表面蛋白、染色质可及域调控关系研究1. 验证同一主题下top gene可以映射到top protein过程结果 2. 跨主题验证gene-protein、peak-gene的调控关系过程结果 3. 验证重构的gene-protein、peak-gene更能反映组学相关性 联合peak-gene分析细胞类型特异性通路和调控机制分析细胞类型特异性通路分析细胞类型特异性motif分析细胞类型特异性通路联合motif 补充基因蛋白集富集过程基因与翻译蛋白表达负相关的可能原因寻找细胞标志物的资源--CellMarker数据库寻找TF对应靶基因的资源--ENCODE Transcription Factor Targets 参考
Zhou, M. et al. Single-cell multi-omics topic embedding reveals cell-type-specific and COVID-19 severity-related immune signatures. Cell Reports Methods 3, 100563 (2023).
亮点
动机
从单细胞多组学数据探究生物模式的现存困难
相比单组学技术多组学技术通量更低数据包含的细胞数量较少不同组学结合之后特征维度更高例如把scRNA-seq和scATAC-seq结合到一起多组学数据噪声更多解决方式概率模型批处理效应多组学测序技术成本更高解决方式用模型预测缺失的组学数据
发展现状
方法文献SMILEXu, Y., Das, P., and McCord, R.P. (2022). Smile: mutual information learning for integration of single-cell omics data. Bioinformatics 38, 476–486.totalVIGayoso, A., Steier, Z., Lopez, R., Regier, J., Nazor, K.L., Streets, A., and Yosef, N. (2021). Joint probabilistic modeling of single-cell multi-omic data with totalvi. Nat. Methods 18, 272–282.multiVIAshuach, T., Gabitto, M.I., Jordan, M.I., and Yosef, N. (2021). Multivi: Deep Generative Model for the Integration of Multi-Modal Data. Preprint at bioRxiv. https://doi.org/10.1101/2021.08.20.457057.CoboltGong, B., Zhou, Y., and Purdom, E. (2021). Cobolt: integrative analysis of multimodal single-cell sequencing data. Genome Biol. 22, 351–421.scMMMinoura, K., Abe, K., Nam, H., Nishikawa, H., and Shimamura, T. (2021). Scmm: Mixture-Of-Experts Multimodal Deep Generative Model for Single-Cell Multiomics Data Analysis. Preprint at bioRxiv. https://doi.org/ 10.1101/2021.02.18.431907.MultigrateLotfollahi, M., Litinetskaya, A., and Theis, F.J. (2022). Multigrate: SingleCell Multi-Omic Data Integration. Preprint at bioRxiv. https://doi.org/10. 1101/2022.03.16.484643.MOFAArgelaguet, R., Arnol, D., Bredikhin, D., Deloro, Y., Velten, B., Marioni, J.C., and Stegle, O. (2020). Mofa: a statistical framework for comprehensive integration of multi-modal single-cell data. Genome Biol. 21, 111–117.
现存问题
需要在可扩展性、可解释性和灵活性进行权衡完全数据驱动不能充分利用生物学信息例如基因注释和通路信息
功能
细胞聚类识别细胞亚型基于一个组学数据插补另一个组学数据识别细胞类型特征和生物标志物
方法 整体是VAE架构但是他在Encoder和Decoer分别作了改进
Encoder改进
假设每个组学数据分布符合K维独立的逻辑正态分布这里采用K维高斯乘积PoG充分利用这些分布的信息比之前的MoE得到更有效的变分推理。前人方法对每个组学分别进行采样K维高斯变量然后平均化这里只需从联合高斯采样一次因此可以得到更鲁棒的结果。Topic解释对联合高斯密度进行Softmax计算生成的逻辑正态分布可视为细胞的主题混合。
Decoder改进
矩阵分解作为Decoder把cell-by-feature matrices分解成shared cell-by-topic matrixshared topic-embedding matrix和M组学数量个独立的feature-embedding matrices引入组学特异性的批次移除因子λ作为线性可加的批次特异性偏差
评价指标
生物保守性
Adjusted Rand Index (ARI)Normalized Mutual Information (NMI)
批次效应移除
k-nearest neighbor batch effect test (kBET)Graph connectivity (GC)衡量不同批次相同细胞类型之间的相似性同时衡量生物保守型和批次移除效应
实验设置
随机分为训练集测试集6:4重复500次
结果
多组学数据整合 在4个peak-gene数据集上的平均指标第二在3个gene-protein数据集上的平均指标第一在所有7个数据集上平均指标第一moETM_* 为只利用组学*的数据进行训练和测试与moETM结果对比表示整合多组学数据比单组学数据得到更准确的结果moETM_avg 用分别从每个组学的高斯分布分别采样然后平均化代替PoG算法结果降低了说明PoG对于moETM起重要作用
cell-topic mixture可解释性 使用BMMC2数据集把moETM训练得到的cell-by-topic matrix进行UMAP可视化与其他方法得到的cell embdding可视化进行对比。 说明cell-by-topic matrix既消除的BatchEffect又识别了细胞类型。
组学翻译性能评估 由A、B图看出基于转录组数据翻译的蛋白数据与原始蛋白数据高度相似且高度线性相关PCC约0.95由C、D图看出基于ATAC数据翻译的基因数据与原始基因数据高度相似且高度线性相关PCC约0.69由A、C图对比看出相比蛋白表达数据基因表达数据明显更稀疏。因此基于ATAC翻译RNA比基于RNA翻译蛋白更难实验结果的PCCATAC2RNA0.69RNA2ATAC0.58RNA2protein0.95protein2RNA0.65由此推断翻译任务难度RNA2protein ATAC2RNA protein2RNA RNA2ATAC
RNA转录本、表面蛋白、染色质可及域调控关系研究
1. 验证同一主题下top gene可以映射到top protein
过程
对于每个topic计算134对基因和对应的翻译蛋白的 topic score 的Spearman correlation
结果
平均相关性在0.2913个topic 相关性高于0.5
2. 跨主题验证gene-protein、peak-gene的调控关系
过程
如果一个peak在一个基因转录起始位点150k bp之内则认为他们是匹配的。 查看匹配的peak-gene、gene-protein的相关系数分布
结果
查看匹配的peak-gene、gene-protein的相关系数分布显著高于0并且和观测值得到的分布类似。 说明该算法在整合的时候保留的调控相关性且能反映原始数据特征
3. 验证重构的gene-protein、peak-gene更能反映组学相关性 表明模型可以对观测数据的噪声进行降噪和混杂校正更能反映单细胞中的不同组学的相关性
联合peak-gene分析细胞类型特异性通路和调控机制
分析细胞类型特异性通路
聚焦于一种类型的细胞CD8 T cells将peak匹配到gene上peak在一个基因转录起始位点150k bp之内找到peak-neighboring genes。联合Topic score较高的的Top gene、Top peak联合分析发现Top5 genes中3个与T细胞功能相关Top5 peak对应的peak-neighboring genes中2个与T细胞功能相关说明揭示了细胞类型特异性基因。对Top5 genes、Top5 peak-neighboring genes进行通路富集GSEA得到的富集pathway与当前细胞类型相关富集的基因集在当前细胞类型中显示出差异性表达上调或下调表明揭示了细胞类型特异性通路及调控机制
分析细胞类型特异性motif 聚焦于一种类型的细胞CD8 T cells从Ensembl database中寻找根据Topic score排名的Top100 peaks对应的100个序列将100个序列输入SEA算法寻找这100个序列富集的motif通过连接 Top genes细胞类型、富集motif对应TFs 构造细胞类型特异性调控网络通过ENCODE TF Targets dataset将已知的TF-genes用黄色线连接起来结果表明根据peak得到的motif在这种细胞类型中若干靶基因属于Top genes说明模型识别了细胞类型特异性调控机制和motif特征
分析细胞类型特异性通路联合motif 聚焦于一种类型的细胞CD8 T cells通过连接 Top genes、富集motif对应TFs、富集pathway构建pathway-motif网络motif与Top genes根据ENCODE TF Targets dataset记录的调控关系连线对比该类型的富集motif与相关的pathway基因特异性表达上调或下调表示motif和pathway之间的调控关系一致性
补充
基因蛋白集富集过程 对于每个Topic根据主题分数得到的rank gene list通过运行GSEAPreranked函数从Molecular signatures database (MSigDB)查询2种基因集免疫学特征基因集基因本体生物过程对于过表达或低表达的基因计算富集分数ES计算ES的统计学显著性认为显著性 p-value0.05 的基因集是显著的图中每个颜色代表一个基因集pathway虚线以上的代表具有显著性。目的是说明每个Topic均可以显著性富集到基因集或pathway
基因与翻译蛋白表达负相关的可能原因
随机噪声可能会阻碍基因和蛋白质之间的相关性单细胞水平的动态细胞过程转录爆发、转录或翻译延迟可引起细胞之间的差异导致相关性降低其他生物过程的影响压倒了转录的影响转录后翻译的影响超过了蛋白质合成mRNA降解速度超过蛋白质合成速度
寻找细胞标志物的资源–CellMarker数据库
Zhang, X., Lan, Y., Xu, J., Quan, F., Zhao, E., Deng, C., Luo, T., Xu, L., Liao, G., Yan, M., et al. (2019). Cellmarker: a manually curated resource of cell markers in human and mouse. Nucleic Acids Res. 47, D721–D728.
寻找TF对应靶基因的资源–ENCODE Transcription Factor Targets
The ENCODE Project Consortium (2011). A user’s guide to the encyclopedia of dna elements (encode). PLoS Biol. 9, e1001046. ENCODE Project Consortium; and Pachter, L. (2004). The encode (encyclopedia of dna elements) project. Science 306, 636–640.