Nemotron-CC – 英伟达推出的大型预训练数据集 | AI工具集

Nemotron-CC是什么

Nemotron-CC是NVIDIA团队推出的大型预训练数据集，能将Common Crawl数据转化为适用于长序列预训练的高质量语料。Nemotron-CC数据集结合分类器集成、合成数据重述和减少启发式过滤器依赖等方法，实现数据量和质量的更好平衡。Nemotron-CC包含6.3万亿个tokens，其中4.4万亿为全球去重的原始tokens，1.9万亿为合成生成的tokens。Nemotron-CC在短期（1T tokens）和长期（15T tokens）训练中均展现出优越性，特别是在MMLU等任务上，相比DCLM和Llama 3.1模型，Nemotron-CC显著提高了模型的准确性。Nemotron-CC数据集的开发为大型语言模型的训练提供了更丰富、更多样的数据资源。
Nemotron-CC - 英伟达推出的大型预训练数据集 | AI工具集

Nemotron-CC的主要功能

提供高质量的预训练数据集：Nemotron-CC为大型语言模型（LLMs）提供高质量、大规模的预训练数据集，特别适用于长序列训练，如15T tokens的训练需求。
平衡数据量和质量：在不显著牺牲数据质量的前提下，大幅增加数据集的规模，包含更多的独特真实tokens，提高模型在长序列训练中的性能。
支持模型性能提升：实验表明，Nemotron-CC训练的模型在多个基准测试任务中表现出色，特别是在MMLU等任务上，相比其他现有数据集，能显著提高模型的准确性。

Nemotron-CC的技术原理

优化文本提取：选用Justext作为HTML-to-text提取器，因其在提取高质量tokens方面表现更佳，有效提升数据集的初始质量。
基于模型的质量标记：
- 分类器集成：构建三个不同的质量分类器，每个分类器有不同的高质量偏好。基于集成三个分类器，为所有文档打分，根据质量得分将爬取的语料库划分为不同的质量级别。
- 质量标签分配：进一步将细粒度的质量得分聚类为5个下游任务质量类别，基于连续预训练和任务性能评估，为每个类别分配更符合实际性能的质量标签。
合成数据生成：
- 低质量数据重述：对于低质量文档，基于重述减少噪声和错误，同时保留有用信息。用Wikipedia风格的提示（prompt）重述低质量文档，有效减少错误和冗余，提高格式化水平。
- 高质量数据扩展：对于高质量文档，基于生成多样化的问答对、提炼、提取知识和知识列表等方式，获取更多独特的tokens，丰富数据集的内容和多样性。
数据集整合：
- 大规模数据合成：用Mistral NeMo 12B模型生成超过1.8万亿个合成tokens，其中包括从低质量文档生成的3363亿tokens和从高质量文档生成的1.5万亿tokens。
- 数据集构建：将上述技术和方法应用于Common Crawl的99个快照（CC-MAIN-2013-20至CC-MAIN-2024-30），构建6.3万亿tokens的数据集，其中4.4万亿为全球去重的原始tokens，1.9万亿为合成生成的tokens。

Nemotron-CC的项目地址

Nemotron-CC的应用场景

预训练大型语言模型：适用于长序列训练，如15T tokens，提升模型在复杂任务中的性能。
微调和特定任务适应：便于模型在多任务学习和特定领域任务中快速适应，提高任务表现。
文本生成任务：用于生成高质量文本，如新闻、故事，及提升对话系统的自然度。
研究与开发：助力探索模型架构和训练方法的改进，提供基准测试资源。
教育与培训：生成教育资源，辅助语言学习，提升教育内容的丰富性。

本站文章版权归 AI工具集所有，未经允许禁止任何形式的转载。

# AI工具

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Nemotron-CC – 英伟达推出的大型预训练数据集 | AI工具集

Nemotron-CC是什么

Nemotron-CC的主要功能

Nemotron-CC的技术原理

Nemotron-CC的项目地址

Nemotron-CC的应用场景

Robin AI - AI法律顾问，用于起草和审阅法律合同 | AI工具集

ProfilePicture.AI - AI头像生成平台，提供300多种不同风格 | AI工具集

相关文章

暂无评论

热门标签

热门网址

最新文章