買比特幣 買比特幣
Ctrl+D 買比特幣
ads

HAT:ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_Votechain

Author:

Time:1900/1/1 0:00:00

撰文:TanyaMalhotra

來源:Marktechpost

編譯:DeFi之道

圖片來源:由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功,大型語言模型正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI開發的ChatGPT是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如Pathways語言模型、Chinchilla等,在模仿人類方面也有很好的表現。

波蘭競爭和消費者保護辦公室對加密交易所Kanga Exchange提起訴訟:1月16日消息,波蘭競爭和消費者保護辦公室 (UOKiK) 對加密交易所Kanga Exchange的運營商Good Solution Investments Ltd. 提起訴訟。該辦公室負責人Tomasz Chróstny在一份聲明中表示:“Kanga Exchange聲稱其商業模式已獲得波蘭金融監管局(KNF)的批準,但該交易所從未收到它所指的批準。此外,其活動不受KNF的監管或評估,提供此類信息可能會在所執行操作的合法性和安全性方面誤導消費者。”若指控得到證實,Good Solution Investments將因侵犯集體消費者利益而面臨最高營業額10%的罰款。

該辦公室指出,波蘭的加密市場沒有受到特別監管,因為它不被視為金融市場的一部分。到目前為止,KNF僅發布了與加密資產的收購和交易相關的風險警告。(Bitcoin.com)[2023/1/16 11:14:00]

大型語言模型使用強化學習來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋,而完成地不好則會有相應的懲罰。像ChatGPT這樣的LLM表現出的卓越性能都要歸功于強化學習。

軟件解決方案公司Chain與NFL新英格蘭愛國者隊簽署贊助協議:9月23日消息,Web3軟件解決方案公司Chain宣布成NFL(美國國家橄欖球聯盟)新英格蘭愛國者隊和MLS(美國職業足球大聯盟)新英格蘭革命的官方區塊鏈和Web3贊助商。[2022/9/23 7:16:04]

ChatGPT使用來自人類反饋的強化學習,通過最小化偏差對模型進行微調。但為什么不是監督學習呢?一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢?人工智能和機器學習研究員SebastianRaschka在他的推特上分享了一些原因,即為什么強化學習被用于微調而不是監督學習。

BitMEX將集成Chainalysis交易篩選功能繼續擴展合規能力:1月12日,加密交易所BitMEX官方宣布正在加深與Chainalysis的合作和集成。BitMEX將在現有流程中集成KYT(了解您的交易)篩選功能,繼續擴展合規能力。[2021/1/12 15:58:19]

不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF則被訓練來估計產生反應的質量,而不僅僅是排名分數。

SebastianRaschka分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和ChatGPT之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。

不選擇SL的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠SL是不夠的,RLHF對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型,但根據經驗發現RLHF往往表現得更好。2022年的一篇論文《從人類反饋中學習總結》顯示,RLHF比SL表現得更好。原因是RLHF考慮了連貫性對話的累積獎勵,而SL由于其文本段落級的損失函數而未能很好做到這一點。

像InstructGPT和ChatGPT這樣的LLMs同時使用監督學習和強化學習。這兩者的結合對于實現最佳性能至關重要。在這些模型中,首先使用SL對模型進行微調,然后使用RL進一步更新。SL階段允許模型學習任務的基本結構和內容,而RLHF階段則完善模型的反應以提高準確性。

Tags:CHAGPTHATCHATVotechainGPTG價格What Do You MemeCHAT價格

以太坊交易
YES:初代加密之王歸來 BitMEX 聯創 Arthur Hayes 被捕的臺前幕后_Qitmeer Network

撰文:JenWiecener,NewYorkfeatures編譯:angelilu,ForesightNewsBitMEX聯合創始人ArthurHayes在結束6個月的軟禁后回到了加密行業.

1900/1/1 0:00:00
ARB:晚間必讀|Arbitrum發幣 對L2大戰有何影響?_bitedu

1.金色觀察|Nansen:Arbitrum空投鏈上分發模型詳解Arbitrum空投鏈上分發發模型依賴于Nansen鏈上數據和標簽,根據錢包的鏈上歷史活動為其分配資格積分.

1900/1/1 0:00:00
區塊鏈:金色Web3.0日報 | 摩根大通將結束與Gemini的合作關系_MOCEANS幣

DeFi數據 1、DeFi代幣總市值:466.58億美元 DeFi總市值及前十代幣數據來源:coingecko2、過去24小時去中心化交易所的交易量25.

1900/1/1 0:00:00
ROL:上海升級的機遇 值得關注的 Layer2 與 LSD 賽道_roll幣可以roll坐騎嗎

以太坊上海升級后,加密行業會發生什么新變化?今年三月,以太坊開發人員將開啟以太坊測試網Goerli上海升級計劃,在達成普遍共識后3-4周完成以太坊上海升級.

1900/1/1 0:00:00
KEN:很多項目明明是"大白馬" 為何Token卻跌跌不休?_KickToken(new)

作者:AVX 什么是Token和Token經濟學過去幾年,Token經濟學,逐漸稱為一個流行的術語。Token經濟學由Token和經濟學兩個詞構成,顧名思義則是關于?Token?的經濟學規則.

1900/1/1 0:00:00
TER:透過最新上線的zkRouter 看Multichain理想中的跨鏈未來_akro幣是什么幣

2月22日,跨鏈路由協議Multichain宣布已在測試網上推出了基于零知識證明的跨鏈基礎設施zkRouter,并實現了從以太坊到Fantom的測試網跨鏈轉賬.

1900/1/1 0:00:00
ads