亚洲av成人精品日韩一区,97久久久精品综合88久久,玩弄japan白嫩少妇hd,亚洲av片不卡无码久久,玩弄人妻少妇500系列

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華為提出Sorted LLaMA:SoFT代替SFT,訓(xùn)練多合一大語言模型

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-09-26 16:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

ChatGPT、LLaMa等大型語言模型(LLMs)在自然語言處理領(lǐng)域帶來的革命性進(jìn)步。通過有監(jiān)督微調(diào)(SFT)的訓(xùn)練方式,這些模型擁有強大的上下文學(xué)習(xí)能力,在各種任務(wù)中都展現(xiàn)了超凡的表現(xiàn)。然而,它們也有一個不小的問題——龐大的存儲空間和高昂的計算資源成本。

但現(xiàn)在,研究人員們?yōu)槲覀儙砹艘豁椥碌慕鉀Q方案——SortedNet。它允許我們在一個大型模型內(nèi)創(chuàng)建多個“子模型”,每一個都有自己專門的任務(wù)責(zé)任區(qū)。這意味著我們可以根據(jù)自己的需求和可用資源來選擇適合的子模型,從而大幅度減少存儲空間和計算資源的需求。

而這一切的背后,是一項名為Sorted Fine-Tuning(SoFT)的新訓(xùn)練技術(shù)。SoFT讓我們可以在一個訓(xùn)練周期內(nèi)產(chǎn)出多個子模型,無需任何額外的預(yù)訓(xùn)練步驟。此外,這項技術(shù)還揭示了模型的中間層也能夠產(chǎn)生高質(zhì)量的輸出,這一點在之前的研究中常常被忽視。

為了證明這種方法的有效性,研究人員使用了LLaMa 2 13B和Stanford Alpaca數(shù)據(jù)集進(jìn)行測試和驗證。他們不僅對比了SFT和SoFT這兩種方法,還創(chuàng)建了多個不同層次的子模型來確定哪些層最能產(chǎn)出高質(zhì)量的結(jié)果。測試結(jié)果令人鼓舞——使用SoFT創(chuàng)建的子模型不僅運行速度更快,而且能夠保持或甚至超越原始模型的性能水平。

讓我們一起深入了解一下SortedNet和SoFT技術(shù)吧!

02d06996-5c36-11ee-939d-92fbcf53809c.png

Paper:Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning
Link:https://arxiv.org/abs/2309.08968

Many-in-One LLMs

在介紹這篇研究之前,先讓我們了解一下什么是Many-in-One。

深度神經(jīng)網(wǎng)絡(luò)通常存在過多的參數(shù),導(dǎo)致模型部署的成本增加。此外,在實際應(yīng)用中,這些過度參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)需要為具有不同需求和計算預(yù)算的客戶提供服務(wù)。為了滿足這些多樣化的需求,可以考慮訓(xùn)練不同大小的模型,但這將非常昂貴(涉及訓(xùn)練和內(nèi)存成本),或者另一種選擇是訓(xùn)練Many-in-One網(wǎng)絡(luò)。

Many-in-One解決方案是在一個神經(jīng)網(wǎng)絡(luò)模型內(nèi)部包含多個子網(wǎng)絡(luò),每個子網(wǎng)絡(luò)可以執(zhí)行不同的任務(wù)或具有不同的結(jié)構(gòu)。這個方法的目標(biāo)是將多個任務(wù)或模型結(jié)構(gòu)整合到一個統(tǒng)一的網(wǎng)絡(luò)中,從而提高模型的通用性和適應(yīng)性。例如:

早期退出(Early Exit):在訓(xùn)練過程中,Early Exit在除了最后的預(yù)測層之外,還在網(wǎng)絡(luò)的特定中間層上添加了額外的預(yù)測頭。這些預(yù)測頭在需要時提供中間預(yù)測,可以實現(xiàn)更快的推斷速度。

層丟棄(Drop Layer),通過在訓(xùn)練期間隨機丟棄層來訓(xùn)練具有任意深度的網(wǎng)絡(luò)。

最近,LLMs引起了廣泛的關(guān)注。為了使LLMs適應(yīng)這些多樣化的需求,研究者提出了兩種適應(yīng)方法:參數(shù)高效調(diào)整(PEFT)和模型壓縮。

PEFT:核心主干模型保持不變,而只更新一些適配器參數(shù)。這些適配器的作用就像是在LLMs上進(jìn)行微調(diào),使其適應(yīng)不同的任務(wù)和需求。有一些PEFT的變種,比如LoRA、KRONA、Adapter、DyLoRA、Ladder Side-Tuning和Compacter等。這些方法可以讓LLMs更加靈活,但仍然無法提供動態(tài)大小的LLMs。

模型壓縮:在模型壓縮中,大型模型通過知識蒸餾、修剪和量化等壓縮方法來減小尺寸。這些方法可以生成不同尺寸的模型,但需要分別對每個壓縮模型進(jìn)行訓(xùn)練,而且它們也不是多合一模型。

現(xiàn)在,再回到Many in one LLMs的概念。這是一種非常有趣的想法,它們可以同時適應(yīng)多種不同的任務(wù)和需求。但到目前為止,我們還沒有看到發(fā)布的多合一LLM模型。因此,在這項研究中,研究人員將一種SortedNet的訓(xùn)練方法應(yīng)用到LLaMA 13B模型上,這將成為第一個Many in one LLM。

方法

這項研究的方法涉及將大型語言模型(LLMs)轉(zhuǎn)化為多合一模型,靈感來自SortedNet方法,主要步驟如下:

形成子網(wǎng)絡(luò):首先需要將LLMs劃分為多個子網(wǎng)絡(luò)。子網(wǎng)絡(luò)的深度(即前n層的子模型)用fn(x; θn)表示。在這項研究中,選擇的語言模型是LLaMA2 13B,總共包括40層。因此,定義了一系列不同層數(shù)的子網(wǎng)絡(luò),如12層、16層、20層等。

計算子網(wǎng)絡(luò)的輸出:每個子模型的輸出將通過使用原始網(wǎng)絡(luò)最后一層的共享輸出預(yù)測頭來進(jìn)行預(yù)測。需要注意的是,在LLaMA模型中,輸出預(yù)測頭之前存在一個RMSNorm層,該歸一化層被添加到每個子模型的共享預(yù)測頭之前。研究人員認(rèn)為,這種歸一化對于Sorted LLama在所有子模型上更好地泛化至關(guān)重要。

目標(biāo)函數(shù):為了訓(xùn)練這些子網(wǎng)絡(luò),定義了每個子模型的損失函數(shù)Ln(x; θn)??倱p失L是所有子模型和主模型的損失之和。

訓(xùn)練數(shù)據(jù)集:在這項研究中,使用了Stanford Alpaca數(shù)據(jù)集,該數(shù)據(jù)集包含了5.2萬個指令跟隨示例的演示。

評估:除了評估最后一層的嵌入質(zhì)量外,還評估了從第1到第n個塊的中間輸出的嵌入質(zhì)量。Panda-LM基準(zhǔn)用于比較不同子模型的輸出。Panda-LM使用一個大型語言模型來評估來自兩個源的生成文本的質(zhì)量。最終的評估結(jié)果包括勝利次數(shù)、失敗次數(shù)和驗證集中的平局次數(shù)。最終得分是通過特定的公式計算出來,表示模型在指令跟隨任務(wù)上的性能,得分范圍在-1到1之間。

Baseline:作者對LLama2 13B模型進(jìn)行了微調(diào),采用了兩種不同的設(shè)置作為基線:常規(guī)監(jiān)督微調(diào)(SFT)和排序微調(diào)(SoFT)。其中,常規(guī)監(jiān)督式微調(diào)是常見做法,主要關(guān)注網(wǎng)絡(luò)的最后一層的訓(xùn)練。在這種情況下,只對網(wǎng)絡(luò)的最后一層進(jìn)行微調(diào)。排序微調(diào)(SoFT)下,計算從第12層到第40層(最后一層)的多個輸出的損失,分為四個間隔,并同時訓(xùn)練多個模型,就像在前面的部分中解釋的那樣。

實驗結(jié)果

對于生成模型的不同層排序信息的影響是什么?

研究者首先關(guān)注了在不同層次的生成模型中對信息進(jìn)行排序的效果。他們進(jìn)行了一系列實驗,生成了不同層次的響應(yīng),并使用PandaLM評估器進(jìn)行了成對比較。結(jié)果顯示,Sorted Fine-Tuning對于將學(xué)到的知識傳遞到中間層具有顯著影響。在自動評估中,Sorted LLaMA在幾乎所有層次上都表現(xiàn)出色,遠(yuǎn)遠(yuǎn)超過了常規(guī)微調(diào)(SFT)。

02f0d654-5c36-11ee-939d-92fbcf53809c.png

需要注意的是,盡管對SoFT的性能進(jìn)行了zero-shot評估,但為了更好地理解SFT層次的結(jié)果,研究者進(jìn)行了額外的訓(xùn)練——對每個子模型的分類層進(jìn)行訓(xùn)練。可以注意到,與Sorted LLaMA的第12層相比,SFT的第12層性能略好。下表是一個生成的回復(fù)例子,可以看到SFT中較早層的生成文本大多是亂碼的。當(dāng)我們進(jìn)入SFT中的較高層時,生成的文本變得越來越有意義,這使得與Sorted LLAMA層的比較更加合理。

03109f5c-5c36-11ee-939d-92fbcf53809c.png

這一部分的實驗結(jié)果呈現(xiàn)出了Sorted Fine-Tuning對于LLama2模型性能的積極影響,尤其是在中間層次的性能上,這為后續(xù)的研究提供了重要基準(zhǔn)。

此外,結(jié)果還突顯了Sorted Fine-Tuning能夠生成性能強大且尺寸較小的子模型,這些子模型與原始模型的性能相媲美。在接下來的圖表中,研究者進(jìn)行了SFT和SoFT在不同條件下的評估,結(jié)果顯示,無論是零-shot還是Early-Exit,兩種方法的結(jié)果幾乎沒有變化。這些實驗證明了Sorted Fine-Tuning的魯棒性和有效性。

0333c626-5c36-11ee-939d-92fbcf53809c.png

034e2804-5c36-11ee-939d-92fbcf53809c.png

結(jié)果分析

SoFT和SFT學(xué)習(xí)到的概率分布對比

研究者使用Kullback-Leibler(KL)散度作為度量標(biāo)準(zhǔn)來衡量兩個概率分布之間的相似性。

下圖(a)比較了Sorted LLaMA和SFT子模型在不同輸出位置上的概率分布。首先,圖(a)左展示了與SFT模型的最后一層以及從第12層到第36層的層次之間的比較??梢悦黠@看出,與生成初始標(biāo)記后的最后一層相比,即使在較高的層次,如36和32,輸出分布迅速發(fā)散。需要注意的是,這種評估是在zero-shot方式下生成的,沒有調(diào)整分類器頭。

03631b06-5c36-11ee-939d-92fbcf53809c.png

下圖(b)顯示了在Sorted LLaMA中,隨著我們靠近最后一層,生成結(jié)果的可能性分布越來越接近完整尺寸子模型,至少在生成文本的初始位置上是如此。

037eb578-5c36-11ee-939d-92fbcf53809c.png

下圖(c)展示了不同SFT層次與最后一個Sorted LLaMA層次之間的比較。圖中顯示,只有SFT的完整尺寸輸出分布接近排序的完整尺寸模型,而其他層次的分布在生成文本的初始步驟中與SoFT相比迅速發(fā)散。

039d8fca-5c36-11ee-939d-92fbcf53809c.png

圖(d)比較了所有排序?qū)哟蔚妮敵龇植寂c最后一個SFT層次的輸出分布。與圖4c(左)相比,圖4d(左)顯示Sorted LLaMA甚至在較低層次的初始輸出標(biāo)記上也能保持與SFT完整尺寸模型接近的輸出分布。

03bac7ca-5c36-11ee-939d-92fbcf53809c.png

總結(jié)

這項工作提出了Sorted LLaMA,它是一種基于Sorted Fine-Tuning而不是監(jiān)督微調(diào)獲得的多合一LLaMA模型,用于動態(tài)推理。Sorted LLaMA釋放了中間層的潛在表示能力,提供了無需預(yù)訓(xùn)練或與模型壓縮相關(guān)的額外開銷的動態(tài)自適應(yīng)能力。它為NLP領(lǐng)域中生成語言模型的優(yōu)化提供了有前途的途徑。

SoFT使這些模型的部署更加高效。由于所有子模型仍然是原始模型的組成部分,因此存儲要求和不同計算需求之間的過渡成本最小化,使得在推理期間管理多個模型成為現(xiàn)實。

這些分析結(jié)果揭示了Sorted Fine-Tuning對于生成模型的輸出分布的影響,特別是在不同的模型層次上,以及Sorted LLaMA在保持輸出分布方面的能力。這些結(jié)果有助于更深入地理解Sorted Fine-Tuning方法的效果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關(guān)注

    關(guān)注

    216

    文章

    35210

    瀏覽量

    255876
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3520

    瀏覽量

    50418
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10788
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1589

    瀏覽量

    9098

原文標(biāo)題:華為提出Sorted LLaMA:SoFT代替SFT,訓(xùn)練多合一大語言模型

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【飛騰派4G版免費試用】仙女姐姐的嵌入式實驗室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

    預(yù)訓(xùn)練語言模型。該模型最大的特點就是基于以較小的參數(shù)規(guī)模取得了優(yōu)秀的性能,根據(jù)官網(wǎng)提供的信息,LLaMA
    發(fā)表于 12-22 10:18

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    模型架構(gòu)奠定基礎(chǔ)。然后,引介些經(jīng)典的預(yù)訓(xùn)練模型,如BERT、GPT等。最后,解讀ChatGPT和LLaMA系列
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練

    訓(xùn)練數(shù)據(jù)時,數(shù)量、質(zhì)量和多樣性三者缺不可。 數(shù)據(jù)的多樣性對于大語言模型至關(guān)重要,這主要體現(xiàn)在數(shù)據(jù)的類別和來源兩個方面。豐富的數(shù)據(jù)類別能夠提供多樣的
    發(fā)表于 05-07 17:10

    Multilingual多語言預(yù)訓(xùn)練語言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)文中提出XLM預(yù)訓(xùn)練語言
    的頭像 發(fā)表于 05-05 15:23 ?3409次閱讀

    種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

    由于亂序語言模型不使用[MASK]標(biāo)記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測空間大小為輸入序列長度,使得計算效率高于掩碼語言模型
    的頭像 發(fā)表于 05-10 15:01 ?1836次閱讀

    基于預(yù)訓(xùn)練模型語言增強的零樣本視覺學(xué)習(xí)

    些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好 CoOp 增加些 prompt 會讓模型能力進(jìn)步提升 怎么讓能力更好?可以引入其他知識,即其他的
    的頭像 發(fā)表于 06-15 16:36 ?840次閱讀
    基于預(yù)<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>和<b class='flag-5'>語言</b>增強的零樣本視覺學(xué)習(xí)

    Meta發(fā)布款可以使用文本提示生成代碼的大型語言模型Code Llama

    今天,Meta發(fā)布了Code Llama款可以使用文本提示生成代碼的大型語言模型(LLM)。
    的頭像 發(fā)表于 08-25 09:06 ?1923次閱讀
    Meta發(fā)布<b class='flag-5'>一</b>款可以使用文本提示生成代碼的大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>Code <b class='flag-5'>Llama</b>

    語言模型(LLM)預(yù)訓(xùn)練數(shù)據(jù)集調(diào)研分析

    語言模型涉及數(shù)據(jù)的通常有有多個階段(Aligning language models to follow instructions [1] ):pre-train、sft(supervised
    的頭像 發(fā)表于 09-19 10:00 ?1623次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLM)預(yù)<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集調(diào)研分析

    語言模型簡介:基于大語言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶:Bedrock對大語言模型進(jìn)行介紹。大語言模型
    的頭像 發(fā)表于 12-04 15:51 ?1151次閱讀

    Meta推出最強開源模型Llama 3 要挑戰(zhàn)GPT

    公司這次開源了Llama 3 8B與70B兩款不同規(guī)模的模型,開發(fā)者可以免費使用,而Meta公司還將陸續(xù)推出系列具備模態(tài)、多語言對話、更
    的頭像 發(fā)表于 04-19 17:00 ?1193次閱讀

    語言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?978次閱讀

    Llama 3 語言模型應(yīng)用

    在人工智能領(lǐng)域,語言模型的發(fā)展直是研究的熱點。隨著技術(shù)的不斷進(jìn)步,我們見證了從簡單的關(guān)鍵詞匹配到復(fù)雜的上下文理解的轉(zhuǎn)變。 、Llama
    的頭像 發(fā)表于 10-27 14:15 ?735次閱讀

    Llama 3 模型訓(xùn)練技巧

    Llama 3 模型,假設(shè)是指個先進(jìn)的人工智能模型,可能是個虛構(gòu)的或者是個特定領(lǐng)域的術(shù)語。
    的頭像 發(fā)表于 10-27 14:24 ?872次閱讀

    從零開始訓(xùn)練個大語言模型需要投資多少錢?

    ,前言 ? 在AI領(lǐng)域,訓(xùn)練個大型語言模型(LLM)是個耗時且復(fù)雜的過程。幾乎每個做大型
    的頭像 發(fā)表于 11-08 14:15 ?787次閱讀
    從零開始<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>一</b>個大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>需要投資多少錢?

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama的安裝。 ,Llama3.2 Vision簡介 Llama 3.2 Vision是模態(tài)大型
    的頭像 發(fā)表于 11-23 17:22 ?3765次閱讀
    用Ollama輕松搞定<b class='flag-5'>Llama</b> 3.2 Vision<b class='flag-5'>模型</b>本地部署