本篇文章給大家分享的是有關(guān)怎么通過(guò)增加模型的大小來(lái)加速Transformer的訓(xùn)練和推理,小編覺(jué)得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說(shuō),跟著小編一起來(lái)看看吧。
張家港網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián)公司,張家港網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為張家港1000多家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\外貿(mào)網(wǎng)站制作要多少錢,請(qǐng)找那個(gè)售后服務(wù)好的張家港做網(wǎng)站的公司定做!
你沒(méi)有看錯(cuò),確實(shí)是通過(guò)增大模型的大小,大家別忘了,在訓(xùn)練的時(shí)候,有個(gè)隱含條件,那就是模型需要訓(xùn)練到收斂。
在深度學(xué)習(xí)中,使用更多的計(jì)算(例如,增加模型大小、數(shù)據(jù)集大小或訓(xùn)練步驟)通常會(huì)導(dǎo)致更高的準(zhǔn)確性??紤]到最近像BERT這樣的無(wú)監(jiān)督預(yù)訓(xùn)練方法的成功,這一點(diǎn)尤其正確,它可以將訓(xùn)練擴(kuò)展到非常大的模型和數(shù)據(jù)集。不幸的是,大規(guī)模的訓(xùn)練在計(jì)算上非常昂貴的,尤其是在沒(méi)有大型工業(yè)研究實(shí)驗(yàn)室的硬件資源的情況下。因此,在實(shí)踐中,我們的目標(biāo)通常是在不超出硬件預(yù)算和訓(xùn)練時(shí)間的情況下獲得較高的準(zhǔn)確性。
對(duì)于大多數(shù)訓(xùn)練預(yù)算,非常大的模型似乎不切實(shí)際。相反,最大限度提高訓(xùn)練效率的策略是使用隱藏節(jié)點(diǎn)數(shù)較小或?qū)訑?shù)量較少的模型,因?yàn)檫@些模型運(yùn)行速度更快,使用的內(nèi)存更少。
然而,在我們的最近的論文中,我們表明這種減少模型大小的常見(jiàn)做法實(shí)際上與最佳的計(jì)算效率訓(xùn)練策略相反。相反,當(dāng)在預(yù)算內(nèi)訓(xùn)練Transformer模型時(shí),你希望大幅度增加模型大小,但是早點(diǎn)停止訓(xùn)練。換句話說(shuō),我們重新思考了模型必須被訓(xùn)練直到收斂的隱含假設(shè),展示了在犧牲收斂性的同時(shí),有機(jī)會(huì)增加模型的大小。
這種現(xiàn)象發(fā)生的原因是,與較小的模型相比,較大的模型在較少的梯度更新中可以收斂于較低的測(cè)試誤差。此外,這種收斂速度的提高超過(guò)了使用更大模型的額外計(jì)算成本。因此,在考慮訓(xùn)練時(shí)間時(shí),較大的模型可以更快地獲得更高的精度。
我們?cè)谙旅娴膬蓷l訓(xùn)練曲線中展示了這一趨勢(shì)。在左側(cè),我們繪制了預(yù)訓(xùn)練的驗(yàn)證誤差RoBERTa,這是BERT的一個(gè)變體。RoBERTa模型越深,其混亂度就越低(我們的論文表明,對(duì)于更寬的模型也是如此)。這一趨勢(shì)也適用于機(jī)器翻譯。在右側(cè),我們繪制了驗(yàn)證BLEU分?jǐn)?shù)(越高越好),當(dāng)訓(xùn)練一個(gè)英語(yǔ)到法語(yǔ)的Transformer機(jī)器翻譯模型。在相同的訓(xùn)練時(shí)間下,深度和寬度模型比小模型獲得更高的BLEU分?jǐn)?shù)。
有趣的是,對(duì)于訓(xùn)練前的RoBERTa來(lái)說(shuō),增加模型的寬度和/或深度都會(huì)導(dǎo)致更快的訓(xùn)練。對(duì)于機(jī)器翻譯,更寬的模型比更深的模型表現(xiàn)得更好。因此,我們建議在深入之前嘗試增加寬度。
我們還建議增加模型大小,而不是batch size大小。具體地說(shuō),我們確認(rèn)一旦batch size接近臨界范圍,增加batch size大小只會(huì)在訓(xùn)練時(shí)間上提供微小的改進(jìn)。因此,在資源受限的情況下,我們建議在這個(gè)關(guān)鍵區(qū)域內(nèi)使用batch size大小,然后使用更大的模型。
盡管更大的模型具有更高的“訓(xùn)練效率”,但它們也增加了“推理”的計(jì)算和內(nèi)存需求。這是有問(wèn)題的,因?yàn)橥评淼目偝杀具h(yuǎn)遠(yuǎn)大于大多數(shù)實(shí)際應(yīng)用的訓(xùn)練成本。然而,對(duì)于RoBERTa來(lái)說(shuō),我們證明了這種取舍可以與模型壓縮相協(xié)調(diào)。特別是,與小型模型相比,大型模型對(duì)模型壓縮技術(shù)更健壯。因此,人們可以通過(guò)訓(xùn)練非常大的模型,然后對(duì)它們進(jìn)行大量的壓縮,從而達(dá)到兩全其美的效果。
我們使用量化和剪枝的壓縮方法。量化以低精度格式存儲(chǔ)模型權(quán)重,修剪將某些神經(jīng)網(wǎng)絡(luò)的權(quán)值設(shè)置為零。這兩種方法都可以減少推理延遲和存儲(chǔ)模型權(quán)值的內(nèi)存需求。
我們首先在相同的時(shí)間內(nèi)預(yù)訓(xùn)練不同尺寸的RoBERTa模型。然后,我們?cè)谙掠挝谋痉诸惾蝿?wù)(MNLI)中對(duì)這些模型進(jìn)行微調(diào),并使用修剪或量化。我們發(fā)現(xiàn),對(duì)于給定的測(cè)試時(shí)間預(yù)算,最好的模型是那些經(jīng)過(guò)大量訓(xùn)練然后經(jīng)過(guò)大量壓縮的模型。
例如,考慮最深度模型的修剪結(jié)果(左圖中的橙色曲線)。不需要修剪模型,它達(dá)到了很高的精度,但是使用了大約2億個(gè)參數(shù)(因此需要大量的內(nèi)存和計(jì)算)。但是,可以對(duì)這個(gè)模型進(jìn)行大量的修剪(沿著曲線向左移動(dòng)的點(diǎn)),而不會(huì)嚴(yán)重影響準(zhǔn)確性。這與較小的模型形成了鮮明的對(duì)比,如粉紅色顯示的6層模型,其精度在修剪后嚴(yán)重下降。量化也有類似的趨勢(shì)(下圖)??偟膩?lái)說(shuō),對(duì)于大多數(shù)測(cè)試預(yù)算(在x軸上選擇一個(gè)點(diǎn))來(lái)說(shuō),最好的模型是非常大但是高度壓縮的模型。
我們已經(jīng)證明了增加Transformer模型的大小可以提高訓(xùn)練和推理的效率,即,應(yīng)該先“大模型訓(xùn)練”,然后再“壓縮”。這一發(fā)現(xiàn)引出了許多其他有趣的問(wèn)題,比如為什么大的模型收斂得更快,壓縮得更好。
以上就是怎么通過(guò)增加模型的大小來(lái)加速Transformer的訓(xùn)練和推理,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見(jiàn)到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
新聞標(biāo)題:怎么通過(guò)增加模型的大小來(lái)加速Transformer的訓(xùn)練和推理
分享地址:http://jinyejixie.com/article4/pocgoe.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站策劃、網(wǎng)站營(yíng)銷、標(biāo)簽優(yōu)化、網(wǎng)站導(dǎo)航、網(wǎng)站排名、面包屑導(dǎo)航
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)