撰文丨王聪永利配资
编辑丨王多鱼
排版丨水成文
多细胞生物中的不同细胞类型拥有相同的基因组,但由于基因表达的差异调控,它们表现出高度特化的功能特征。调控序列通过以细胞类型特异性的方式招募序列特异性转录因子(TF)来决定基因表达模式。染色质可及性是调控 DNA 的通用标志,可通过 DNA 酶 I 超敏感性测序(DNase-seq)和基于转座酶可及染色质测序(ATAC-seq)进行测量。利用这些检测方法,已经在哺乳动物中开展了多项大规模工作以绘制全基因组范围内的调控序列。然而,对于大多数物种而言,全面的细胞类型解析调控序列图谱仍不可用。
利用深度学习(Deep Learning)模型直接从 DNA 序列中预测调控和表达信号,是现代基因组学领域的一个里程碑。最近,深度学习模型已被用于预测单细胞水平的染色质可及性和基因表达。此前,郭国骥教授团队开发了女娲(Nvwa)模型,实现了细胞类型特异性基因表达的图谱规模单细胞分辨率预测,还开发了华佗(Huatuo)模型,有助于在几乎所有细胞类型中以单核苷酸水平解码与疾病相关的调控序列。但遗憾的是,目前大多数细胞图谱数据在灵敏度或通量方面存在局限性,这阻碍了高精度预测模型的生成。
以AlphaFold为代表的蛋白质结构预测模型已经取得了巨大成功永利配资,而基因组学领域的预测模型仍有待实质性突破。
2025 年 7 月 8 日,浙江大学医学院/良渚实验室郭国骥教授团队在国际顶尖学术期刊Cell上发表了题为:Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning 的研究论文。
该研究建立了超高通量、超灵敏的单核 ATAC 测序技术(UUATAC-seq),可在一天内高效率高质量的完成一个物种的染色质可及性图谱。基于该技术,研究团队为五大代表性脊椎动物中绘制候选顺式调控元件图谱,开发了多任务深度学习模型——女娲CE(Nvwa
cis-regulatory element ) ,并实现了从基因组序列到单细胞水平调控元件图谱的直接预测。
研究团队发现,脊椎动物调控语法的保守性明显强于核苷酸序列本身,且该语法将脊椎动物调控原件序列在高维分类为不同的功能模块,由此揭示细胞类型特异性基因表达的序列基础。另外,女娲CE 模型在多项指标上,超越现有的基因组 AI 模型,并能精准预测合成突变对谱系特异性调控元件功能的影响。最后,团队利用基因编辑实验,首次验证了完全由人工智能(AI)设计的人类疾病治愈性位点。这项研究为全面解读基因组语言和建立数字生命模型奠定了坚实基础。
脊椎动物基因组中的调控序列仍未被完全理解。为解决这一问题永利配资,研究团队开发了一种超高通量、超灵敏的单核 ATAC 测序技术(UUATAC-seq),能够在一天内构建出一个物种的染色质可及性图谱。
利用 UUATAC-seq 技术,研究团队在五个具有代表性的脊椎动物物种(哺乳类-小鼠、鸟类-鸡、爬行类-守宫、两栖类-蝾螈、水生类-斑马鱼)中绘制了候选顺式调控元件(
cis-regulatory element, cCRE)的图谱。
分析结果表明,不同物种间基因组大小的差异会影响顺式调控元件(cCRE)的数量,但不会影响其大小。
研究团队进一步推出一种大型任务深度学习模型——女娲CE(Nvwa
cis-regulatory element,简称NvwaCE) ,旨在解读顺式调控“语法”,并能直接从基因组序列中高精度地预测 cCRE 景观。女娲CE证明了调控“语法”比核苷酸序列更具保守性,并且这种“语法”将 cCRE 组织成不同的功能模块。
此外,女娲CE还能准确预测合成突变对谱系特异性 cCRE 功能的影响,这与因果数量性状位点(QTL)和基因组编辑结果相一致。具体来说,女娲CE预测出了一个镰状细胞病的治愈性基因突变位点(HBG1-68:A>G),这一突变位点从未在单核苷酸多态性数据库(dbSNP)或任何已发表的论文中被记录过。进一步验证实验显示,该位点在基因编辑后能够实现胎儿血红蛋白表达量的显著提升,这也是首次在人类细胞中证明了基因组 AI 模型精准预测功能性位点的性能。
总的来说,该研究开发了能够高效构建染色质可及性图谱的UUATAC-seq技术,以及用于脊椎动物染色质图谱预测的基因组 AI 模型——女娲CE(NvwaCE),这些成果为进一步破译脊椎动物基因组的调控语言提供了宝贵资源。
论文链接:
https://www.cell.com/cell/fulltext/S0092-8674(25)00686-5
秦安配资提示:文章来自网络,不代表本站观点。