莱斯大学计算机科学家的突破性低内存技术可以将资源最密集的人工智能形式之一 - 深度学习推荐模型(DLRM) - 放在小公司的范围内。
DLRM推荐系统是一种流行的AI形式,可以学习提出用户会发现相关的建议。但是,由于顶级训练模型需要超过一百TB的内存和超级计算机规模的处理,因此只有一小部分财力雄厚的技术巨头才能使用它们。
赖斯的“随机偏移块嵌入阵列”或ROBE Array可能会改变这一点。这是一种用于削减DLRM内存结构大小的算法方法,称为嵌入表,本周将在加利福尼亚州圣克拉拉举行的机器学习和系统会议(MLSys 2022)上展出,并获得了杰出论文荣誉。
“仅使用100兆字节的内存和单个GPU,我们展示了我们可以匹配训练时间,并将最先进的DLRM训练方法的推理效率提高一倍,这些方法需要100千兆字节的内存和多个处理器,”赖斯大学计算机科学副教授Anshumali Shrivastava说,他在MLSys 2022上与ROBE Array共同创造者Aditya Desai一起介绍了这项研究。 Shrivastava研究小组的Rice研究生,以及Rice的前博士后研究员Li Chou,现在在西德克萨斯A&M大学。
“ROBE Array为DLRM压缩设定了新的基线,”Shrivastava说。“它使普通用户能够接触到DLRM,他们无法访问高端硬件或训练数百TB模型所需的工程专业知识。
DLRM 系统是从数据中学习的机器学习算法。例如,为购物者推荐产品的推荐系统将使用过去交易的数据进行培训,包括用户提供的搜索词,他们被提供的产品以及他们购买了哪些产品(如果有的话)。提高建议准确性的一种方法是将训练数据分类到更多类别中。例如,与其将所有洗发水放在一个类别中,公司还可以为男士,女士和儿童洗发水创建类别。
对于训练,这些分类表示被组织在称为嵌入表的内存结构中,Desai说,由于分类的增加,这些表的大小“已经爆炸式增长”。
“嵌入表现在占DLRM模型整体内存占用量的99.9%以上,”Desai说。“这导致了一系列问题。例如,它们不能以纯粹的并行方式进行训练,因为模型必须分解成碎片并分布在多个训练节点和GPU上。在他们接受培训并投入生产后,在嵌入式表中查找信息约占向用户返回建议所需时间的80%。
Shrivastava表示,ROBE Array通过使用一种称为散列的数据索引方法来创建“单个学习参数数组,该数组是嵌入表的压缩表示形式”,从而消除了存储嵌入表的需求。他说,从数组访问嵌入信息可以“使用GPU友好的通用哈希”来执行。
Shrivastava,Desai和Chou使用备受追捧的DLRM MLPerf基准测试了ROBE Array,该基准测试了系统将模型训练到目标质量指标的速度。使用许多基准数据集,他们发现ROBE Array即使在将模型压缩三个数量级之后,在训练准确性方面也可以匹配或击败以前发布的DLRM技术。
“我们的研究结果清楚地表明,大多数深度学习基准测试可以被基本算法完全推翻,”Shrivastava说。“鉴于全球芯片短缺,这对人工智能的未来来说是个好消息。
ROBE Array并不是Shrivastava在MLSys的第一个大飞溅。在MLSys 2020上,他的团队推出了SLIDE,这是一个“亚线性深度学习引擎”,可以在商用CPU上运行,并且可以优于基于GPU的训练器。他们在MLSys 2021上跟进,表明矢量化和内存优化加速器可以提高SLIDE的性能,使其训练深度神经网络的速度比顶级GPU系统快15倍。
原文标题:ROBE Array could let small companies access popular form of AI
原文链接:https://techxplore.com/news/2022-08-robe-array-small-companies-access.html
作者:Jade Boyd
编译:LCR
| 留言与评论(共有 0 条评论) “” |