一種針對 BERT 模型的多教師蒸餾方案

打開文本圖片集
摘要:在傳統(tǒng)的知識蒸餾中,若教師、學生模型的參數(shù)規(guī)模差距過大,則會出現(xiàn)學生模型無 法學習較大教師模型的負面結果。為了獲得在不同任務上均擁有較好表現(xiàn)的學生模型,深入研 究了現(xiàn)有的模型蒸餾方法、不同教師模型的優(yōu)缺點,提出了一種新型的來自 Transformers 的雙 向編碼器表示(Bidrectional Enoceder Respresentations from Transformers,BERT)模型的多教 師蒸餾方案,即使 用 BERT、魯棒優(yōu)化 的 BERT 方 法 ( Robustly optimized BERT approach, RoBERTa)、語言理解的廣義自回歸預訓練模型(XLNET)等多個擁有 BERT 結構的教師模型對 其進行蒸餾,同時修改了對教師模型中間層知識表征的蒸餾方案,加入了對 Transformer 層的 蒸餾。(剩余13352字)