ChatGPT引爆的AI熱潮也“燒到了”金融圈,彭博社重磅發布為金融界打造的大型語言模型——BloombergGPT。
3月30日,根據彭博社最新發布的報告顯示,其構建迄今為止最大的特定領域數據集,并訓練了專門用于金融領域的LLM,開發了擁有500億參數的語言模型——BloombergGPT。
報告顯示,該模型依托彭博社的大量金融數據源,構建了一個3630億個標簽的數據集,支持金融行業內的各類任務。該模型在金融任務上的表現遠超過現有模型,且在通用場景上的表現與現有模型也能一較高下。
一般來說,在NLP領域,參數數量和復雜程度之間具有正相關性,GPT-3.5模型的參數量為2000億,GPT-3的參數量為1750億。
火幣大學于佳寧:相比其他金融資產,比特幣的發展周期相對獨立:3月25日15:00,火幣大學校長于佳寧受金融數據平臺Wind邀請,以《近期比特幣價格波動分析以及區塊鏈在疫情期間的新應用》為主題進行直播。
于佳寧在談到比特幣的“避險”和“對沖”作用時,他表示,人們期望比特幣不受全球金融市場暴跌影響的邏輯就是不成立的。比特幣有著獨立的發展周期,包括應用擴展周期、技術發展周期、減半周期等,與其他金融產品的相關性比較低,因此擴展了資產風險邊界。加入配置比特幣,在其獨立的周期里,收益率確實是非常好的,但并不會違背全球金融趨勢。
詳情點擊原文鏈接。[2020/3/25]
關于BloombergGPT
報告指出,研究人員利用彭博社現有的數據,對資源進行創建、收集和整理,通過構建迄今為止最大的特定領域數據集來完成BloomberGPT,并基于通用和金融業務的場景進行混合模型訓練:
聲音 | 孟巖:開放金融技術設施等是通證經濟的三個主攻方向:杭州市金融辦指導,巴比特主辦的2019全球區塊鏈(杭州)高峰論壇上,通證經濟發起人 CSDN副總裁孟巖認為目前通證經濟的發展有三個主要方向:開放金融技術設施、開源監管、開放的通證模型。不過他認為只是通證經濟是一種手段,其目的是開放金融。現如今,在這三個方向中基礎設施發展的最好,但是走的依舊很艱難。此外他還強調道,開放的通證激勵模型需要由企業家來決定。[2019/5/17]
彭博社主要是一家金融數據公司,數據分析師在公司成立的四十年的時間里收集了大量的金融文件,擁有廣泛的金融數據檔案,涵蓋了一系列的主題。
我們將這些數據添加到公共數據集中,以創建一個擁有超過7000億個標簽的大型訓練語料庫。
使用這個訓練語料庫的一部分,我們訓練了一個具有彭博風格的,達500億參數的模型,該模型是根據Hoffmann和LeScao等人的指導方針設計,基于通用和金融業務的場景進行混合模型訓練。
分析 | 研報:區塊鏈將率先在金融、游戲、通證資產實現落地:2月20日消息,維京資本近日發布《2018區塊鏈年度報告 》,其中指出,2019年,在區塊鏈產業方面,區塊鏈將在金融、游戲、通證資產率先落地并且比過往任何時候都走得更遠,此外,還有物聯網、供應鏈、BaaS方面都是值得期待的領域。產業也會出現某種形式上的整合浪潮,在熊市背景下,有獨特競爭優勢、產品優勢的項目將會存活并成功。[2019/2/20]
結果表明,我們的混合訓練方法使我們的模型在金融任務上的表現大大超過了現有的模型,而在通用場景上的表現則與之相當甚至優于現有模型。
動態 | 青島北區將打造以區塊鏈技術為基礎的金融開放先行區:據青島日報消息,青島市北區將全面提升城市生長力、建設主城核心區、做強區塊鏈等六大創新產業。青島國際郵輪港區服務管理局常務副局長馬繼世表示,《智慧郵輪港建設總體規劃》即將出爐,一個集跨境金融、跨境保險、離岸金融為一體的金融開放先行區,區塊鏈技術和產業發展高地的模樣將愈發清晰。[2018/10/4]
1.BloombergGPT優勢:特定領域模型仍有其不可替代性且彭博數據來源可靠
在論文中,彭博社指出,現階段,通用的自然語言處理模型可以涵蓋許多領域,但針對特定領域模型仍有其不可替代性,因彭博社的大多數應用均為金融領域,著手構建了一個針對金融領域的模型尤其優勢,同時可以在通用LLM基準測試上保持競爭力:
動態 | 日本金融廳稱在考慮改革加密貨幣監管方式:日本金融廳對媒體說,它正在考慮改革日本對加密貨幣的監管方式。該機構已因其加密交換注冊流程的不足而受到批評,此前該機構向此前批準的一些交易所發布了業務改進令。[2018/7/5]
除了構建金融領域的LLM外,本文的經驗也為其他研究領域的專用模型提供了參考。我們的方法是在特定領域和一般數據源上訓練LLM,以開發在特定領域和通用基準上表現優異的模型。
此外,我們的訓練數據不同于傳統的網絡爬取數據,網絡上的數據總有重復和錯誤,但我們的數據來源可靠。
2.BloombergGPT的訓練數據集:
BloombergGPT的訓練數據庫名為FINPILE,由一系列英文金融信息組成,包括新聞、文件、新聞稿、網絡爬取的金融文件以及提取到的社交媒體消息。
為了提高數據質量,FINPILE數據集也使用了公共數據集,例如ThePile、C4和Wikipedia。FINPILE的訓練數據集中大約一半是特定領域的文本,一半是通用文本。為了提高數據質量,每個數據集都進行了去重處理。
對金融領域的理解更準
報告指出,在金融領域中的自然語言處理在通用模型中也很常見,但是,針對金融領域,這些任務執行時將面臨挑戰:
以情感分析為例,一個題為“某公司將裁員1萬人”,在一般意義上表達了負面情感,但在金融情感方面,它有時可能被認為是積極的,因為它可能導致公司的股價或投資者信心增加。
報告指出,從測試來看,BloombergGPT在五項任務中的四項表現最佳,在NER中排名第二。因此,BloombergGPT有其優勢性。
測試一:ConvFinQA數據集是一個針對金融領域的問答數據集,包括從新聞文章中提取出的問題和答案,旨在測試模型對金融領域相關問題的理解和推理能力。
測試二:FiQASA,第二個情感分析任務,測試英語金融新聞和社交媒體標題中的情感走向。
測試三:標題,數據集包括關于黃金商品領域的英文新聞標題,標注了不同的子集。任務是判斷新聞標題是否包含特定信息,例如價格上漲或價格下跌等。
測試四:FPB,金融短語庫數據集包括來自金融新聞的句子情緒分類任務。
測試五:NER,命名實體識別任務,針對從提交給SEC的金融協議中收集金融數據,進行信用風險評估。
對于ConvFinQA來說,這個差距尤為顯著,因為它需要使用對話式輸入來對表格進行推理并生成答案,具有一定挑戰性。
ChatGPT為彭博點贊
華爾街見聞就這個問題專門詢問了ChatGPT,ChatGPT認為BloombergGPT是一項很有意義的技術進步:
它是專門為金融領域開發的一種語言模型,可以更好地處理金融領域的數據和任務,并且在金融領域的基準測試中表現出色。
這將有助于金融從業者更好地理解和應用自然語言處理技術,促進金融科技的發展。同時,BloombergGPT還可以為其他領域的語言模型的發展提供參考和借鑒。總的來說,BloombergGPT是一個有益的技術創新。
來源:BuidlerDAO作者:HIRAYAMASHO翻譯:@KP|BuidlerDAO基于過去的案例和現在主流的DeFi和GameFi模型.
1900/1/1 0:00:00Nancy CFTC對幣安的監管行動或與SBF及FTX有著一定聯系?3月27日,總部位于華盛頓的美國商品期貨交易委員會(CFTC)宣布起訴加密交易所幣安及其CEO兼創始人CZ.
1900/1/1 0:00:00與前兩年的一擁而上相反,目前微軟、Meta等科技巨頭紛紛削減或關閉元宇宙部門,我們不禁要問駛向元宇宙的科技巨輪已經拋錨了嗎?非也.
1900/1/1 0:00:00原文作者:DanielLi,CoinVoiceLayer?1區塊鏈Sui宣布其主網將于今年第二季度推出,并開啟名為「WavetoMainnet」的一系列教育活動和內容,旨在主網上線前.
1900/1/1 0:00:00文/TJKeel,TheTIEEEResearch;譯/金色財經xiaozou 1、$ARB Arbitrum將于3月23日向社區分配其ARB代幣總供應的12.75%.
1900/1/1 0:00:00原文作者:Web3?Traveler3?月?16?日,Arbitrum?正式官宣為?ArbitrumOne?和?ArbitrumNova?網絡推出?DAO?治理和治理代幣?ARB.
1900/1/1 0:00:00