來源:機器之心
純文本大模型方興未艾,多模態領域也開始涌現出多模態大模型工作,地表最強的GPT-4具備讀圖的多模態能力,但是遲遲未向公眾開放體驗,于是乎研究社區開始在這個方向上發力研究并開源。MiniGPT-4和LLaVA問世不久,阿里達摩院便推出mPLUG-Owl,一個基于模塊化實現的多模態大模型。
今天要介紹的是mPLUG-Owl,該工作不僅通過大量cases展示出優秀的多模態能力,還第一次針對視覺相關的指令理解提出一個全?的測試集OwlEval,通過人工評測對比了已有模型,包括LLaVA、MiniGPT-4、BLIP-2以及系統類MM-REACT等工作,實驗結果表明mPLUG-Owl展示出更優的多模態能力,尤其在多模態指令理解能力、多輪對話能力、知識推理能力等方?表現突出
時尚元宇宙游戲公司DREST完成1500萬英鎊融資:6月22日消息,時尚元宇宙游戲公司DREST宣布完成1500萬英鎊融資,投資方信息暫未披露。DREST將時尚奢侈品牌與元宇宙技術進行整合,玩家可以在元宇宙Avatar上設計品牌數字服裝并參與游戲,旗下用戶生成內容平臺則能將游戲化和品牌營銷相結合,使品牌商可以接觸到高參與度的受眾群,目前DREST合作的時尚品牌商包括Breitling、Cartier、Fendi、Gucci、Prada和Valentino等。現階段,DREST正在探索開發Web3和生活方式領域里的游戲,預計將在未來18個月內進入研發階段。[2023/6/22 21:54:55]
論文鏈接:https://arxiv.org/abs/2304.14178
數據:美國政府和Mt.Gox受托人分別持有205,514和137,890枚BTC:金色財經報道,Glassnode數據顯示,根據數據,美國政府和Mt.Gox受托人分別持有205,514和137,890枚BTC。
此前消息,DB NEWSWIRE發推特稱,收到區塊鏈情報公司Arkham Intelligence發布的警報,稱Mt.Gox和美國政府的比特幣錢包進行交易,隨后BTC短線下跌近8%。[2023/4/28 14:32:18]
代碼鏈接:https://github.com/X-PLUG/mPLUG-Owl
ModelScope體驗地址:
https://modelscope.cn/studios/damo/mPLUG-Owl/summary
HuggingFace體驗地址:
https://huggingface.co/spaces/MAGAer13/mPLUG-Owl
Veax Labs正式在主網上推出基于NEAR的DEX:4月27日消息,Veax Labs 正式在主網上推出基于 NEAR 協議構建的 DEX,旨在將傳統金融中常見的功能與去中心化金融(DeFi)市場中常見的功能無縫連接。[2023/4/27 14:31:20]
多模態能力展示
我們把mPLUG-Owl與現有工作進行對比來感受一下mPLUG-Owl的多模態效果,值得一提的是,該工作中評比的測試樣例基本上都來自已有工作,避免了cherrypick問題。
下圖6展示了mPLUG-Owl很強的多輪對話能力。
從圖7中可以發現,?mPLUG-Owl具有很強的推理能力。
米其林將推出 NFT 系列Michelin 3xplorer Club:4月27日消息,米其林(Michelin)將推出 NFT 系列Michelin 3xplorer Club,該 NFT 系列基于該品牌自 1898 年以來的經典 Bibendum 吉祥物形象設計,總計發行 5000 枚。NFT 單價和發布日期等信息尚未正式宣布,但據其管理團隊透露,預計將會于 6 月 15 日在以太坊啟動鑄造。[2023/4/27 14:30:21]
如圖9展示了一些笑話解釋例?。
在該工作中,除了評測對比外,該研究團隊還觀察到mPLUG-Owl初顯一些意想不到的能力,比如多圖關聯、多語?、文字識別和文檔理解等能力。
港股ChatGPT概念股走勢分化 美圖公司漲近3%:金色財經報道,港股ChatGPT概念股走勢分化 美圖公司漲近3%。截至發稿,知乎-W(02390.HK)跌3.51%、京東集團-SW(09618.HK)跌3.09%、騰訊控股(00700.HK)跌2.92%,而美圖公司(01357.HK)漲2.73%、閱文集團(00772.HK)漲1.33%、粉筆(02469.HK)漲0.70%。[2023/4/12 13:58:09]
如圖10所示,雖然在訓練階段并沒有進行多圖關聯數據的訓練,mPLUG-Owl展現出了一定的多圖關聯能力。
如圖11所示,盡管mPLUG-Owl在訓練階段僅使用了英文數據,但其展現出了有趣的多語?能力。這可能是因為mPLUG-Owl中的語?模型使用了LLaMA,從而出現了這一現象。
盡管mPLUG-Owl沒有在帶有標注的文檔數據上進行訓練,但其仍然展現出了一定的文字識別和文檔理解能力,測試結果如圖12所示。
方法介紹
該工作提出的mPLUG-Owl,其整體架構如圖2所示。
模型結構:它由視覺基礎模塊(開源的ViT-L)、視覺抽象模塊以及預訓練語?模型(LLaMA-7B)組成。視覺抽象模塊將較?的、細粒度的圖像特征概括為少量可學習的Token,從而實現對視覺信息的?效建模。?成的視覺Token與文本查詢一起輸?到語?模型中,以?成相應的回復。
模型訓練:采用兩階段的訓練方式
第一階段:主要目的也是先學習視覺和語?模態間的對?。不同于先前的工作,?mPLUG-Owl提出凍住視覺基礎模塊會限制模型關聯視覺知識和文本知識的能力。?因此mPLUG-Owl在第一階段只凍住LLM的參數,采用LAION-400M,?COYO-700M,?CC以及MSCOCO訓練視覺基礎模塊和視覺摘要模塊。
第?階段:延續mPLUG和mPLUG-2中不同模態混合訓練對彼此有收益的發現,Owl在第?階段的指令微調訓練中也同時采用了純文本的指令數據(52kfromAlpaca+90kfromVicuna+50kfromBaize)和多模態的指令數據(150kfromLLaVA)。作者通過詳細的消融實驗驗證了引?純文本指令微調在指令理解等方?帶來的收益。第?階段中視覺基礎模塊、視覺摘要模塊和原始LLM的參數都被凍住,參考LoRA,只在LLM引?少量參數的adapter結構用于指令微調。
實驗結果
SOTA對比
為了比較不同模型的多模態能力,該工作構建一個多模態指令評測集OwlEval。由于?前并沒有合適的自動化指標,參考Self-Intruct對模型的回復進行人工評測,打分規則為:A="正確且令人滿意";B="有一些不完美,但可以接受";C="理解了指令但是回復存在明顯錯誤";D="完全不相關或不正確的回復"。
對比結果如下圖3所示,實驗證明Owl在視覺相關的指令回復任務上優于已有的OpenFlamingo、BLIP-2、LLaVA、MiniGPT-4。
多維度能力對比
多模態指令回復任務中牽扯到多種能力,例如指令理解、視覺理解、圖?上文字理解以及推理等。為了細粒度地探究模型在不同能力上的?平,本文進一步定義了多模態場景中的6種主要的能力,并對OwlEval每個測試指令人工標注了相關的能力要求以及模型的回復中體現了哪些能力。
結果如下表格6所示,在該部分實驗,作者既進行了Owl的消融實驗,驗證了訓練策略和多模態指令微調數據的有效性,也和上一個實驗中表現最佳的baseline—MiniGPT4進行了對比,結果顯示Owl在各個能力方?都優于MiniGPT4。
Tags:OWLPLUGPLUMPLSOWLplug幣現價plugchain幣發行量Wrapped Ampleforth
對于經歷了上一輪牛市的投資者來說,「以太坊基金會賣幣」一直是一個頗為可靠的逃頂信號。另一個為人津津樂道的逃頂信號,即memeCoin的爆發。目前的加密市場,已經集齊這兩點.
1900/1/1 0:00:00頭條 ▌過去24小時ETH鏈上手續費收入突破1500萬美元金色財經報道,Cryptofees.info數據顯示,最近24小時,以太坊鏈上手續費收入為15251640美元.
1900/1/1 0:00:00在實體資產和數字資產界限日益模糊的今天,一個令人興奮的新時代正在來臨。隨著現實世界資產的通證化為曾經不可動搖的市場注入了活力,財富創造和投資機會前所未有地增加.
1900/1/1 0:00:00如何參考Web2市場定價方式?為新產品或服務定價是創始人在產品開發生命周期早期需要解決的關鍵挑戰之一。在一個相對較新的市場,比如加密貨幣,定價很難“貨比三家”。定價策略取決于市場環境.
1900/1/1 0:00:00吉爾吉斯斯坦與比特幣礦工的關系很復雜。如果做得好,比特幣開采對吉爾吉斯斯坦來說可謂是一個巨大的機會。吉爾吉斯斯坦,一個位于中亞山區的小型發展中國家,比特幣正成為其出口貿易越來越重要的組成部分.
1900/1/1 0:00:00自Ordinals協議將BTCNFT帶火之后,BRC-20又成為了用戶、CEX?爭搶布局的新賽道。這些新協議的出現讓一向「古板」的比特幣鏈又重新煥發生機.
1900/1/1 0:00:00