Nemotron-CC – 英伟达推出的大型预训练数据集 | AI工具集


Nemotron-CC是什么

Nemotron-CC是NVIDIA团队推出的大型预训练数据集,能将Common Crawl数据转化为适用于长序列预训练的高质量语料。Nemotron-CC数据集结合分类器集成、合成数据重述和减少启发式过滤器依赖等方法,实现数据量和质量的更好平衡。Nemotron-CC包含6.3万亿个tokens,其中4.4万亿为全球去重的原始tokens,1.9万亿为合成生成的tokens。Nemotron-CC在短期(1T tokens)和长期(15T tokens)训练中均展现出优越性,特别是在MMLU等任务上,相比DCLM和Llama 3.1模型,Nemotron-CC显著提高了模型的准确性。Nemotron-CC数据集的开发为大型语言模型的训练提供了更丰富、更多样的数据资源。
Nemotron-CC - 英伟达推出的大型预训练数据集 | AI工具集

Nemotron-CC的主要功能

  • 提供高质量的预训练数据集:Nemotron-CC为大型语言模型(LLMs)提供高质量、大规模的预训练数据集,特别适用于长序列训练,如15T tokens的训练需求。
  • 平衡数据量和质量:在不显著牺牲数据质量的前提下,大幅增加数据集的规模,包含更多的独特真实tokens,提高模型在长序列训练中的性能。
  • 支持模型性能提升:实验表明,Nemotron-CC训练的模型在多个基准测试任务中表现出色,特别是在MMLU等任务上,相比其他现有数据集,能显著提高模型的准确性。

Nemotron-CC的技术原理

  • 优化文本提取:选用Justext作为HTML-to-text提取器,因其在提取高质量tokens方面表现更佳,有效提升数据集的初始质量。
  • 基于模型的质量标记
    • 分类器集成:构建三个不同的质量分类器,每个分类器有不同的高质量偏好。基于集成三个分类器,为所有文档打分,根据质量得分将爬取的语料库划分为不同的质量级别。
    • 质量标签分配:进一步将细粒度的质量得分聚类为5个下游任务质量类别,基于连续预训练和任务性能评估,为每个类别分配更符合实际性能的质量标签。
  • 合成数据生成
    • 低质量数据重述:对于低质量文档,基于重述减少噪声和错误,同时保留有用信息。用Wikipedia风格的提示(prompt)重述低质量文档,有效减少错误和冗余,提高格式化水平。
    • 高质量数据扩展:对于高质量文档,基于生成多样化的问答对、提炼、提取知识和知识列表等方式,获取更多独特的tokens,丰富数据集的内容和多样性。
  • 数据集整合
    • 大规模数据合成:用Mistral NeMo 12B模型生成超过1.8万亿个合成tokens,其中包括从低质量文档生成的3363亿tokens和从高质量文档生成的1.5万亿tokens。
    • 数据集构建:将上述技术和方法应用于Common Crawl的99个快照(CC-MAIN-2013-20至CC-MAIN-2024-30),构建6.3万亿tokens的数据集,其中4.4万亿为全球去重的原始tokens,1.9万亿为合成生成的tokens。

Nemotron-CC的项目地址

Nemotron-CC的应用场景

  • 预训练大型语言模型:适用于长序列训练,如15T tokens,提升模型在复杂任务中的性能。
  • 微调和特定任务适应:便于模型在多任务学习和特定领域任务中快速适应,提高任务表现。
  • 文本生成任务:用于生成高质量文本,如新闻、故事,及提升对话系统的自然度。
  • 研究与开发:助力探索模型架构和训练方法的改进,提供基准测试资源。
  • 教育与培训:生成教育资源,辅助语言学习,提升教育内容的丰富性。
© 版权声明

© 版权声明

相关文章

暂无评论

暂无评论...