<label id="434s6"></label>
        1. <span id="434s6"><input id="434s6"></input></span>
          1. <s id="434s6"></s><s id="434s6"><sub id="434s6"></sub></s><strike id="434s6"><input id="434s6"></input></strike>
              歡迎來到《圣博凱斯》變頻供水設備官網
              精銳于專業 / 卓然于品質 -- 20年專注于供水行業,締造至臻品質 -- 服務熱線:0731-85783205 18932453205

              繼電器模型圖_中間繼電器3d模型

              蒸餾的類型

              通用數據集上蒸餾,和特定數據集上蒸餾,并且在特定數據集上做數據增加效果會更好
              TinyBERT中蒸餾的整體過程:首先進行通用蒸餾,然后用數據增強后的數據,在特定任務上進行蒸餾,本文主要進行了第二階段的蒸餾,模型是利用第一階段得到的通用小模型tinybert-6l-768d-v2進行初始化。

              蒸餾層的選擇

              知識的蒸餾通常是通過讓學生模型學習相關的蒸餾相損失函數實現,在本實驗中,蒸餾的學習目標由兩個部分組成,分別是中間層的蒸餾損失和預測層的蒸餾損失。其中,中間層的蒸餾包括對Embedding層的蒸餾、對每個Transformer layer輸出的蒸餾、以及對每個Transformer中attention矩陣(softmax之前的結果)的蒸餾,三者均采用的是均方誤差損失函數。而預測層蒸餾的學習目標則是學生模型輸出的logits和教師模型輸出的logits的交叉熵損失。

              蒸餾層的映射

              由于教師模型是12層,學生模型的層數少于教師模型的層數,因此需要選擇一種layer mapping的方式。論文中采用了一種固定的映射方式,當學生模型的層數為教師模型的1/2時,學生第i層的attention矩陣,需要學習教師的第2i+1層的attention矩陣,Transformer layer輸出同理。

              猜你喜歡

              18932453205
              国产ww久久久久久久久久|中字人妻内射喷潮第二页|日本不卡视频高清播放|麻豆久久精品免费看国产|丁香色欲久久久久久综合网

                    <label id="434s6"></label>
                    1. <span id="434s6"><input id="434s6"></input></span>
                      1. <s id="434s6"></s><s id="434s6"><sub id="434s6"></sub></s><strike id="434s6"><input id="434s6"></input></strike>