GENERator – 阿里 AI for Science 团队等推出的生成式 DNA 大模型


GENERator是什么

GENERator是阿里云飞天实验室 AI for Science 团队推出的生成式基因组基础模型,专注于 DNA 序列的设计和生成。模型基于 Transformer 解码器架构,具有 98k 碱基对的上下文长度和 12 亿参数,训练数据涵盖 3860 亿 bp 的真核生物 DNA。在多个基准测试中表现出色,能生成与天然蛋白质家族结构相似的 DNA 序列,在启动子设计等任务中展现出优化潜力。
GENERator - 阿里 AI for Science 团队等推出的生成式 DNA 大模型

GENERator的主要功能

  • DNA 序列生成:GENERator 能生成具有生物学意义的 DNA 序列,可以编码与已知家族结构相似的蛋白质。能成功生成组蛋白和细胞色素 P450 家族的全新变体。
  • 启动子设计:通过微调,GENERator 可以设计具有特定活性的启动子序列,用于调控基因表达。实验表明,生成的启动子序列在活性上与天然样本有显著差异,展现出强大的基因表达调控潜力。
  • 基因组分析与注释:在基因分类和分类群分类任务中,GENERator 表现出色,能高效识别基因位置、预测基因功能注释基因结构。
  • 序列优化:GENERator 在序列优化方面展现出显著潜力,通过指令生成具有特定活性的 DNA 序列,为合成生物学和基因工程提供了新的工具。

GENERator的技术原理

  • Transformer 解码器架构:GENERator 采用 Transformer 解码器架构,通过多头自注意力机制和前馈神经网络实现高效的序列建模。解码器能处理长序列,在生成过程中避免看到未来信息,保证生成的序列符合生物学逻辑。
  • 超长上下文建模:模型具有 98k 碱基对 的上下文长度,能处理复杂的基因结构。在生成长序列时保持连贯性和生物学意义。
  • 6-mer 分词器:GENERator 使用 6-mer 分词器,将 DNA 序列分割为长度为 6 的核苷酸片段。在生成任务中表现优于单核苷酸分词器和 BPE 分词器,平衡了序列分辨率和上下文覆盖。
  • 预训练策略:模型在大规模数据上进行预训练,数据集包含 3860 亿 bp 的真核生物 DNA。预训练任务采用 Next Token Prediction (NTP),通过预测下一个核苷酸来学习 DNA 序列的语义。
  • 下游任务适配:GENERator 在多个下游任务中表现出色,包括基因分类、分类群分类和启动子设计。通过微调,模型能生成具有特定活性的启动子序列,展现出强大的基因表达调控能力。
  • 生物学验证:模型生成的 DNA 序列能编码与天然蛋白质家族结构相似的蛋白质。通过 Progen2 计算生成序列的困惑度(PPL)以及使用 AlphaFold3 预测其三维结构,验证了生成序列的生物学意义。

GENERator的项目地址

GENERator的应用场景

  • DNA 序列设计与优化:GENERator 能生成具有生物学意义的 DNA 序列,例如用于蛋白质家族的定制。能生成与天然蛋白质家族结构相似的 DNA 序列,如组蛋白和细胞色素 P450 家族的变体。
  • 基因组分析与注释:在基因组学研究中,GENERator 可以高效识别基因位置、预测基因功能,注释基因结构。
  • 合成生物学与基因工程:GENERator 提供了一种新的工具,用于设计和优化基因表达调控元件,如启动子和增强子。在合成生物学和基因工程中具有重要应用价值。
  • 精准医疗与药物设计:通过生成与特定疾病相关的基因序列,GENERator 可以为精准医疗和药物设计提供支持。可以用于设计用于基因治疗的靶向序列。
  • 生物技术中的序列优化:GENERator 能通过指令生成具有特定功能的 DNA 序列,为生物技术中的序列优化提供了新的可能性。
© 版权声明

© 版权声明

相关文章

暂无评论

暂无评论...