文|Juny??編輯|VickyXiao
由ChatGPT引發的人工智能風潮還在猛烈地刮著。但從各個角度來看,目前這都是一個巨頭爭霸的戰場:更大的模型、更強的算力、更多的用戶、更雄厚的資金……這些都似乎成為了想要加入這場角逐的門票。與此同時,核心技術的研究也逐漸開放走向封閉。
而在這高墻正在筑起的過程中,也有一些新銳的創業公司想要高舉旗幟來一場革命。其中,尤其引人注目的是一家名為HuggingFace開源創業公司。
目前,HuggingFace已經是全球最受歡迎的開源機器學習社區和平臺,不僅創下了GitHub有史以來增長最快的AI項目記錄,估值也一路沖破了20億美元。近期,微軟和浙江大學聯合發布的一篇關于HuggingGPT的論文更是把HuggingFace推到了舞臺中心,也讓更多人關注到了當前這股與眾不同的人工智能發展力量。
01HuggingGPT火了,Hugging是啥?
本月初,微軟亞洲研究院和浙江大學聯合發布了一項最新的名為HuggingGPT的研究,介紹了一個全新的協作系統,讓開發者能夠在ChatGPT的幫助下快速、準確地去選擇合適的人工智能模型,從而完成包括文字、視頻、語音等多模態在內的復雜任務。
該項目目前已經在Github上開源,還有一個超拉風的名字叫JARVIS。在這個研究中,主要涉及到了兩個主體,一個是眾所周知的ChatGPT,另一個則是AI社區HuggingFace。
美股開盤漲跌不一 特斯拉跌逾4%:金色財經報道,美股開盤漲跌不一,道指漲0.19%,納指跌0.59%,標普500指數跌0.22%。特斯拉跌逾4%,二季度毛利率降至18.2%,創三年來最低水平。[2023/7/20 11:07:46]
圖片來自HuggingGPT研究論文
那么HuggingFace是做什么的?
簡單來說,HuggingFace是一個針對人工智能的開源平臺,用戶可以在上邊發布和共享預訓練模型、數據集和演示文件等。目前HuggingFace上已經共享了超過10萬個預訓練模型,1萬多個數據集,包括微軟、谷歌、Bloomberg、英特爾等各個行業超過1萬家機構都在使用HuggingFace的產品。
在HuggingGPT中,ChatGPT通過扮演了“操作大腦”的角色,能夠自動解析用戶提出的需求,接著在HuggingFace的“AI模型池”里進行自動模型選擇、執行和報告,為開發者們開發更復雜的人工智能程序提供了極大的便利。
雖然在模型上ChatGPT跟HuggingFace能夠牽手,但從本質上來說,HuggingFace跟OpenAI目前是在做兩個相反方向的事。其中最大的不同點在于,在開發者服務方面,OpenAI現在正在搭建人工智能開發的圍墻,僅允許滿足條件的機構和個人進入,但HuggingFace則希望每個人都可以訪問生成式AI模型,包括各類企業和所有普通開發者。
今年2月,OpenAI上線了一個名為Foundry的新開發者平臺,允戶可以在這個平臺上運行OpenAI最新的機器學習模型,但在產品的描述中,OpenAI明確表示Foundry是為運行較大工作負載的尖端客戶設計,而根據一份價格表顯示,即使是GPT-3.5的輕量級版本,三個月費用高達7.8萬美元,一年費用為26.4萬美元。
22860枚ETH從未知錢包轉移到Binance:金色財經報道,據Whale Alert監測,22860枚ETH (價值40,462,179美元) 從未知錢包轉移到Binance。[2023/5/12 14:59:13]
就在Foundry發布后,Huggingface便立刻宣布了其與AWS的最新合作伙伴關系,并發出了“讓人工智能走向開放”的呼吁。通過該合作,任何開發人員都將能夠使用AWS的托管服務并處理HuggingFace上可用的任何模型。
圖片來自HuggingfaceCTO推特
在現在巨頭林立的人工智能戰場上,HuggingFace就像是一支強有力的民間力量。當巨頭們都在努力保持自己生成式AI的霸主地位的時候,HuggingFace的目標則是尋找各種途徑來保持AI研究空間的開放。
而這樣特點也讓HuggingFace目前頗有一些“中立”的色彩。無論微軟、谷歌、亞馬遜、Meta這些大公司打得再激烈,但它們幾乎全都是HuggingFace的支持者。
那么,HuggingFace究竟是如何發展起來的,它具體做著什么樣的業務?
02一次歪打正著的創業,造就AI界的頂流“笑臉”
在普通人的眼中,人工智能一向都屬于“冷感”很強的技術領域,無論是充斥著大量數字、模型的算法,還是由各種機械零件組裝成的機器人,都不免讓人感到有些距離感。但作為專為人工智能開發者服務的HuggingFace卻主打了一個反差萌,笑臉Emoji再加上一雙攤開的小手,logo甚至有點過份可愛。
硅谷銀行(SIVB.O)盤前跌超50%:金色財經報道,硅谷銀行(SIVB.O)盤前跌超50%,此前多家機構建議撤出資金。[2023/3/10 12:55:00]
之所以有這樣一個可愛的logo,是因為一開始HuggingFace做的產品其實是一款針對青少年群體的聊天機器人。
當時HuggingFace的想法是基于自然語言處理(NLP)的人工智能技術,來為年輕人們開發一個帶有娛樂性、類似于電子寵物一樣的個性化聊天機器人,讓大家可以在無聊的時候跟它聊八卦、問它問題、讓它生成一些有趣的圖片之類的事情。
這種新穎的人機社交模式得到了一些關注。2017年3月9號,HuggingFaceApp在iOSAppStore正式推出,并拿到了包括SVAngel、NBA球星杜蘭特在內的120萬美元的天使投資。此后一年多,HuggingFace都一直圍繞著自己的聊天機器人業務在做著自然語言理解的相關訓練并發布相關的產品,高峰時期每天處理的消息數量達到了1百萬條。在2018年5月,它又獲得了400萬美元的種子輪融資。
HuggingFace聊天軟件界面
雖然發展的還算不錯,但由于當時的人工智能的理解能力和聊天水平遠不及ChatGPT這樣智能有趣,再加上并非剛需的業務場景,HuggingFace的規模一直都難以擴大。
但為了開發這個聊天機器人,HuggingFace的團隊做了一個很重要的事,那就是構建了一個底層庫來容納各種機器學習模型和各種類型的數據集。包括幫助訓練聊天機器人檢測文本消息情緒、生成連貫的響應、理解不同對話主題等,并且在GitHub上始終以開源項目的形式持續發布該底層庫的一些內容。
馬斯克指控Twitter存在安全漏洞,尋求結束并購交易:金色財經報道,根據周四的一份法庭文件,埃隆·馬斯克指控Twitter公司隱瞞了該公司數據安全的嚴重缺陷,構成欺詐。馬斯克說,這應該讓他結束對該公司440億美元的交易。馬斯克還聲稱,Twitter對其隱瞞了公司沒有遵守2011年與美國聯邦貿易委員會(FTC)就用戶數據達成的協議。
馬斯克要求特拉華州法官認定他沒有義務完成交易,而Twitter則希望法官命令馬斯克以每股54.20美元的價格收購該公司。為期五天的審判定于10月17日開始。(路透社)[2022/9/16 7:00:12]
就這樣不溫不火地發展了一段時間后,2018年底,HuggingFace迎來了一個重要的轉折。
當年11月,谷歌宣布推出基于雙向Transformer的大規模預訓練語言模型BERT,瞬間成為了自然語言理解領域最受開發者關注的模型。但一開始,Google只發布了BERT的TensorFlow版本,HuggingFace就想為啥沒有Pytorch版本呢?于是HuggingFace創始人之一的ThomasWolf就用幾天的時間完成并開源了PyTorch-BERT,但沒想到,就是這么一個“無心插柳”的項目讓HuggingFace一炮而紅。
借著BERT的東風,HuggingFace的Pytorch-pretrained-BERT發布3個多月后,快速達成了在Github上5000+星標的成就,到了7月份其Star數量已經超過了1萬,發展速度遠超其他同類開源項目,在Github的AI項目領域里一飛沖天。
以太坊合并后首個PoS區塊15537394被最終確認:金色財經報道,以太坊合并后首個PoS區塊15537394被最終確認。此前報道,以太坊核心開發者Tim Beiko稱,正在等待最終確定,大約需要6分鐘。[2022/9/15 6:58:27]
在這樣的發展勢頭下,HuggingFace的產品戰略開始發生了調整。他們將更多精力放到了開源模型的建設上,將Pytorch-pretrained-BERT項目正式命名為Transformers,同時支持Pytorch和Tensorflow2.0。
借助Transformers庫,開發者可以快速使用BERT、GPT、XLNet、T5、DistilBERT等NLP大模型,并使用這些模型來完成文本分類、文本總結、文本生成、信息抽取、自動QA等任務,節省大量時間和計算資源,此后HuggingFace在人工智能開源領域的名氣也越來越大。
HuggingFace在Github上的Star曲線,圖片來自于LuxCapital
到了2019年12月,HuggingFace拿到了由LuxCapital領投的A輪融資,融資額也比上一輪上了一個量級達到了1500萬美元。值得注意的是,從這一輪開始,HuggingFace的標簽開始不再是聊天機器人,而是把AI開源業務放在了首位。這張可愛的笑臉emoji也開始被廣大人工智能開發者們所熟知。
03朝著人工智能界的Github前進
在2019年底AllinAI開源之后,HuggingFace開始著手構建一套完整的開源產品矩陣。用HuggingFace自己的話來講,他們所做的事情,就是要架起人工智能科研和應用的橋梁。
過去這些年,人工智能領域的科研和商業應用是相對獨立的兩個板塊,科研部門的任務就是對前沿技術進行研究,搞模型、發論文,應用部門的人則是要將最新技術用到產品中探索商業變現。如何將科研成果進行系統性的整合成為開源產品,讓開發者們能夠很快上手去應用轉化是長期困擾業界的一個問題。
HuggingFace之前歪打正著地摸到了這個痛點,接著開始認真向下挖掘。簡單來說,HuggingFace就是承擔了人工智能科研走向應用這個過程中幾乎所有復雜、繁瑣、細碎的工作,然后方便任何人工智能從業者都可以去便捷地使用這些研究模型和資源。
目前,除了頭號產品Transformers之外,HuggingFace還建立了Tokenizers、Datasets、Accelerate等庫,從模型到數據集、從托管平臺到性能優化,以開源社區為載體,HuggingFace已建立起了完整的人工智能開發生態,涵蓋了NLP、計算機視覺、語音、時間序列、生物學、強化學習等各個領域。
值得注意的是,HuggingFace并不是因為ChatGPT帶火的。2022年5月,當市場的注意力都還停留在Web3、元宇宙之上時,HuggingFace拿到了有紅杉、LuxCapital參與的1億美元融資,讓其估值一舉突破了20億美元。
HuggingFace的融資歷史,圖片來自于企查查
HuggingFace當前的目標是想成為人工智能領域的Github。其創始團隊認為,只有將那些少數人掌握的技術推廣給更多人使用,才能真正最大程度地推進整個行業的進步。而從商業的角度來說,HuggingFace認為賦能整個AI社區所可能產生的價值可能比一個專有的工具高出千倍,而只要將其中的1%變現就能夠足以撐起一個高市值的公司,類似的例子包括MongoDB、Elastic等等。
除了蓬勃發展的開源社區,從2020年開始,HuggingFace也開始做面向企業的定制自然語言模型,其客戶涵蓋彭博社、高通、英特爾等各類大中小型公司,并推出了包括AutoTrain、InferenceAPI&Infinity、PrivateHub、ExpertSupport等針對不同開發者類型的產品。據報道顯示,從2021年開始HuggingFace就一直處于正現金流的狀態。
HuggingFace的的產品服務,圖片來自于其官網
HuggingFace在當前的人工智能領域中能夠以開源社區的模式異軍突起,有一些偶然也有必然。首先,過去這些年,人工智能技術所取得的進步都是由全世界的科研和產業領域共同協作所推動的,它的技術基因里其實就帶著開放,因此建立起一個平臺來鏈接研究者和開發者順應了行業發展的歷史和趨勢。
此外,HuggingFace通過完成大量的基礎性工作,來幫助彌補在人工智能領域里長期存在的科學與生產之間的鴻溝,這是過去很多開源平臺沒有關注和做到的。
在此前的一個采訪中HuggingFace的CEOClémentDelangue表示,機器學習技術仍然還處于早期發展階段,開源社區的能力將是巨大的。他認為,在未來5到10年,我們一定還會看到更多開源機器學習公司的崛起。
巴比特園區開放合作啦!
中文推特:https://twitter.com/8BTC_OFFICIAL
英文推特:https://twitter.com/btcinchinaDiscord社區:https://discord.gg/defidao電報頻道:https://t.me/Mute_8btc電報社區:https://t.me/news_8btc
Tags:HUGINGGINFACEHUGOeSwappingInflation Hedging CoinFaceDAO
?近日,NEAR以白金贊助商身份出席了「2023香港Web3嘉年華」活動,NEAR聯創Illia和MetaWebVentures創始合伙人Amos參加了本次盛會.
1900/1/1 0:00:00大家好!非常榮幸和大家在網上見面,我也非常興奮,下面就通過這個機會和大家講一講我們公司和我自己。你們當中的有些人可能對我不太熟悉,我是Arbitrum的CEO和聯合創始人.
1900/1/1 0:00:00當Blur這臺NFT市場的流動性發動機也逐漸熄火: Blur自身乃至各NFT市場的ETH交易總量都在不斷下滑當Doodles、CloneX、Moonbirds三個「老藍籌」不斷下跌成為「NFT三.
1900/1/1 0:00:001.香港首個合規營業的交易所OSL機構開戶至少排隊一個月。預計大會會進一步增加排隊的長度2.某持牌虛擬資產券商透露,老錢們最喜歡的投資標是比特幣比特幣比特幣,其次是以太坊,他們很多透過券商購買比.
1900/1/1 0:00:00從大灣區出發,擁抱“數字經濟”的葳蕤春天?大灣區數字經濟大會圓滿結束/?BUSINESSGOVirtual座無虛席、氣氛火炎焱燚.....4月13日.
1900/1/1 0:00:00加密世界正在野蠻生長,但大多數早期項目都處于迷霧之中,難以尋找真正的寶藏。加密研究員Surf盤點總結了5個早期項目,認為它們擁有巨大潛力,能夠帶來不菲的Alpha收益.
1900/1/1 0:00:00