一種針對 BERT 模型的多教師蒸餾方案

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：在傳統(tǒng)的知識蒸餾中，若教師、學(xué)生模型的參數(shù)規(guī)模差距過大，則會出現(xiàn)學(xué)生模型無法學(xué)習(xí)較大教師模型的負(fù)面結(jié)果。為了獲得在不同任務(wù)上均擁有較好表現(xiàn)的學(xué)生模型，深入研究了現(xiàn)有的模型蒸餾方法、不同教師模型的優(yōu)缺點，提出了一種新型的來自 Transformers 的雙向編碼器表示（Bidrectional Enoceder Respresentations from Transformers，BERT）模型的多教師蒸餾方案，即使用 BERT、魯棒優(yōu)化的 BERT 方法（ Robustly optimized BERT approach， RoBERTa）、語言理解的廣義自回歸預(yù)訓(xùn)練模型（XLNET）等多個擁有 BERT 結(jié)構(gòu)的教師模型對其進(jìn)行蒸餾，同時修改了對教師模型中間層知識表征的蒸餾方案，加入了對 Transformer 層的蒸餾。（剩余13352字）

試讀結(jié)束

購買全文6.00元下一篇多采樣率雙通道有源噪聲反饋控制系統(tǒng)的研究

華東理工大學(xué)學(xué)報（自然科學(xué)版）

2024年02期

￥18.00/本

特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

一種針對 BERT 模型的多教師蒸餾方案