华为提出新型动态 BERT 模型,可自适应宽度和深度并保持高性能

  • A+
所属分类:技术资讯

技术编辑:HOME Carl blog(家庭卡尔博客)出版:Carl blog(卡尔博客)
华为最近在诺亚方舟研究所发表了论文《DynaBERT: Dynamic BERT with Adaptive Width and Depth》。在这篇论文中,实验室的研究者提出了一种新型的dyna BERT模型—— dyna BERT。
论文作者表示,预培训的语言模型(如BERT和RoBERTa)在许多自然语言处理任务中功能强大,但计算和内存昂贵。缓解此问题的一种方法是在部署之前压缩特定任务。
但是,当前对BERT压缩的操作通常是将大型BERT模型压缩为固定的小尺寸,不能充分满足不同边缘设备的各种硬件性能要求。DynaBERT可以在可变宽度和深度运行。
DynaBERT的课程包括首先培训宽度可变的BERT,然后将全尺寸模型的知识细化到较小的子网络,允许宽度和深度适应。网络栽培线也用于维持更多子网络共享的更重要注意头和神经元。在各种效率约束下进行综合实验,结果证明,华为的诺亚方舟实验室所提出的罗伯塔在最大尺寸上与伯特具有相似的性能,在较小的宽度或深度上总是比传统的伯特压缩方法性能好。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: