微软的ZeRO-2与深度速度训练神经网络高达1700亿个参数

微软今天升级了它的DeepSpeed库,用ZeRO-2训练大型神经网络。微软表示,内存优化技术能够训练1700亿个参数的机器学习模型。就背景而言,英伟达庞大的威震天语言模型是当今世界上最大的语言模型之一,拥有110亿个参数。

今天的声明是在DeepSpeed库2月份的开源发布之后发布的,该库用于创建Turing-NLG。Turing-NLG拥有170亿个参数,是目前世界上已知的最大的语言模型。微软在2月份推出了零冗余优化器(Zero)和DeepSpeed。

ZeRO通过减少数据并行中的内存冗余来实现其结果,这是另一种将大型模型放入内存的技术。ZeRO-1包含一些模型状态内存优化,而ZeRO-2提供了激活内存和片段内存的优化。

DeepSpeed是为跨多台服务器的分布式模型训练而设计的,但ZeRO-2也在单GPU上对训练模型进行了改进,据报道,训练模型如谷歌的BERT提高了30%。

更多细节将在周三由微软首席技术官凯文·斯科特(Kevin Scott)发表的主题演讲中宣布。

这一消息是在微软全数字构建开发者大会开幕之际发布的,会上宣布了多项人工智能开发成果,包括用于机器学习中的差异隐私的WhiteNoise工具包,以及用于人工智能工业应用的盆栽项目。

上周,英伟达CEO黄延森发布了Ampere GPU架构和A100 GPU。新的GPU芯片——以及多模态模型和大规模推荐系统等趋势——将在未来几年引领更大的机器学习模型。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。