買比特幣 買比特幣
Ctrl+D 買比特幣
ads

AION:高中教師養出40億美元超級獨角獸 Stable Diffusion背后數據集創建者_Crypto Legions Bloodstone

Author:

Time:1900/1/1 0:00:00

他本是一位普普通通的高中教師,卻活生生養出一個估值40億美元獨角獸。

而且方法也是非常的獨特——

打造了世界最大的免費開源數據集,卻從未從中收取過一分錢,也婉拒了各類工作的邀請。

他叫舒曼,在德國漢堡市的高中教物理和計算機科學。

兩年前他創立了LAION,如今被用于各種生成模型,包括谷歌Imagen、Parti,以及驚艷全球的StableDiffusion。

就連StableDiffuision背后公司StabilityAI的創始人曾親自來送錢時,他都表現出嗤之以鼻的樣子,認定“這個人一定是瘋了”。

或許他怎么也沒想到,只不過兩年前靈機一動,就帶來了生成式AI的劇變。

受DALL-E啟發

2021年新年之際,OpenAI重磅推出DALL-E,GPT-3首次成功實現跨界:

Vemanti收購區塊鏈及AI開發公司Devblock:金色財經報道,金融科技公司Vemanti宣布與總部位于西雅圖的區塊鏈及AI開發公司Devblock簽署了一項股票購買協議,以收購后者100%股權,但具體協議細節和收購金額暫未披露。通過此次收購,Vemanti將提升人工智能和數字化轉型能力并進一步鞏固其在數字銀行領域的地位,據悉全部收購交易預計將在2023財年二季度完成。(globenewswire)[2023/4/27 14:30:11]

只需對著它說上一段話,就能生成對應圖片。

一時間風光無兩,吳恩達在內的科技大佬們都激動了,網友們都稱其為甲方克星。

但在德國漢堡市郊區的一間房屋內,這位高中教師舒曼卻產生了對數據私有化的擔憂:

如果這一切都集中在一家、兩家或三家公司,那將對社會產生非常糟糕的影響。

當時,OpenAI發表了背后關鍵模型CLIP的論文。論文中顯示,CLIP在4億個圖像-文本對上進行了預訓練,在沒有精細調整的情況下,最終在各種多模態基準中實現高性能。

Bosonic啟用交叉托管人凈結算系統:金色財經報道,去中心化金融市場基礎設施(dFMI)企業Bosonic宣布率先啟用交叉托管人凈結算 (CCNS),其中USDC和ETH的交易是在兩個數字資產托管人(香港的First Digital和新加坡的 Propine)之間自動執行、清算和結算。[2022/12/10 21:35:01]

由此可見數據集對于CLIP的重要性,但OpenAI并沒有進行公開,它只開源了CLIP的代碼和模型權重。

于是乎,舒曼就開始在Discord網羅了一群同為AI愛好者的朋友,嘗試復制OpenAI同等水平的「文本-圖像對」數據集。

沒想到這一搞就搞了大半年,直到2021年8月他們首次發布了LAION-400M數據集,里面包含了4.13億圖像-文本對。

回顧整個創建過程,舒曼對彭博社這樣形容:

就像是用數百萬張抽認卡來教一個人一門外語。

他們用一個非盈利組織CommonCrawl在2014年到2021年期間,抓取的隨機HTML代碼來定位網絡上的圖像,并將這些圖像與描述性文本聯系起來,最后還得根據一定規則來過濾掉不適合的樣本。

頂級F1方程式VIP俱樂部Amber Lounge與SO-COL合作推出VIP會員NFT:10月1日消息,頂級F1方程式VIP俱樂部Amber Lounge正在與Web3 KOL Irene Zhao創立的Web3 NFT基礎設施公司SO-COL合作推出VIP會員NFT。該NFT開放2000個終身會員資格,將在新加坡大獎賽上推出。其中,Shark Membership NFT將在新加坡大獎賽期間鑄造,這將授予NFT所有者終身訪問全球所有Amber Lounge活動的權限,例如F1大獎賽、卡塔爾國際足聯世界杯等。包含更多特權的Whale Membership NFT將在接下來的幾個月內發布。

據悉,曾出席過Amber Lounge活動的名人嘉賓包括Lewis Hamilton、Nico Rosberg、Justin Bieber、Kim Kardashian、Richard Branson、Gordan Ramsay、Pamela Anderson、Kylie Minogue等。今年也會有著名的Web3創始人加入。[2022/10/1 18:36:59]

比如,刪除了所有文本長度少于五個字符;圖像小于5KB的的樣本;關鍵字帶有NSFW的……幾周之內,他們就擁有了300萬對圖文對。

加密研究員:“以太坊信標鏈區塊重組”情形在合并之后不會發生:5月29日消息,對于在5月25日以太坊信標鏈發生7個區塊的重組,加密研究員Barnabé Monnot發布文章分析表示,這種情況在以太坊實行POS后不會發生。重組突出了動態可用鏈的一個失敗案例,這在理論上是可能的,但實際上是不可想象的,就像長期重組在工作量證明中是可能的,但在實踐中很少見到(除非是敵對行為)。因此,必須認識到,目前重組的促成因素純粹是偶然的。如果所有驗證節點都運行相同的配置,問題就不會發生,特別是合并之后不會發生。因為所有驗證節點都必須在合并之前進行硬分叉,否則會被完全排除在共識之外。

此前消息,以太坊預測平臺Gnosis創始人Martin K?ppelmann表示,大約2.5小時前,以太坊信標鏈經歷了7個區塊的深度重組。這表明應該重新考慮當前節點的證明策略,V神文章的“重組穩定性將在POS中優于POW”的觀點分析過于樂觀。多年來,我們還沒有在以太坊主網上看到7次區塊重組。目前還不清楚重組是由攻擊引起的,還是只是網絡狀況。[2022/5/29 3:48:46]

數據集發布之后就收到了各種反響,被用于諸多論文和實驗。其中最具代表性的,就是GoogleBrain去年發布的Imagen——文本生成圖像的擴散模型。

NYDFS負責人:加密許可證和商業審批花費的時間太長,需開發“21世紀監管框架”:金色財經報道,紐約金融服務部 (NYDFS) 負責人 Adrienne Harris 表示,該機構正在招聘更多員工并更新其指導方針,以更好地應對監管不斷變化的加密行業挑戰。Adrienne Harris 解釋說:“虛擬資產是第一種轉型資產,當我們看到聯邦監管機構涉足該領域時,加密貨幣不一定完全適合商品監管框架、證券監管框架、以及貨幣監管框架,加密許可證和商業審批花費的時間太長,因此監管機構要為加密貨幣開發一個適合21世紀的框架。”(coindesk)[2022/5/20 3:29:03]

與此同時,更多機構開始關注到這個非盈利組織并給予資金支持。2021年他們就收到了HuggingFace的一次性捐贈。

但印象最深的一次,還要屬一個對沖基金經理來到Discord聊天室。

當時他二話不說直接送錢,大概意思是:我給你們支付算力費用,沒有任何附加條件。

舒曼團隊對這個行為嗤之以鼻,甚至覺得他是個瘋子:

一開始我們非常懷疑,但大概一個月后,我們獲得了價值近1萬美元的云計算服務。

后來,這個所謂的“瘋子”創辦了StabilityAI,使用LAION數據集推出了StableDiffusion,引領了生成式AI的浪潮,順便還拐走了LAION組織的兩個研究人員。

如今StabilityAI正在尋求40億美元估值,這主要歸功于LAION提供的數據。

據彭博社消息,舒曼卻并沒有從LAION中獲利,原因很簡單:不感興趣,希望保持這份工作的獨立性。

因此他還婉拒了各類工作邀請,依舊選擇在德國漢堡當一名普普通通的高中老師。

本人:數據集不應該被監控

即便如此,隨著LAION知名度打響,他還是避免不了地卷入到各種紛擾之中。

目前,LAION已經發布了10項數據集,最具代表性的就是去年3月發布的LAION-5B,由58.5億個圖像文本組成,是當前最大的免費開源數據集。

作為LAION-400M的繼任者,它收到了來自HuggingFace、StabilityAI以及Doodlebot資助。

結果一發布就遭到了不小的爭議,網友們紛紛質疑其數據未經整理,導致充斥大量的非法內容,對此LAION工程師RomainBeaumont回應:

非標注數據集是自我監督學習的基礎,這是機器學習的未來。沒有人工標注的圖像/文本是一項功能,而非錯誤。

早在Imagen發布時,也專門針對LAION-400M做出警示:因為依賴于這種未經整理的網絡數據,集成了大模型的社會偏見和限制,因此不適合公開使用。

據彭博社消息,為了打造LAION,舒曼團隊從亞馬遜網絡服務、Shopify等公司獲取視覺數據,還有包括YouTube縮略圖、各類新聞網站上的內容。

對此舒曼表示,任何在網上免費提供的東西都是公平競爭,歐盟也沒有人工智能法規。

更何況,也沒有人知道OpenAI實際上用什么樣的數據集訓練AI的。

目前,LAION被迫卷入兩場訴訟之中,一起是StabilityAI與Midjourney等集體訴訟,被指使用藝術家的版權圖片來訓練他們的模型;

另一起是GettyImages起訴StabilityAI,稱其1200萬張照片被LAION取走,并用來訓練StableDiffusion。

而舒曼將LAION比作大信息技術海嘯之上一艘“小型研究船”,采取海下的樣本向世界展示。

其實早在構建數據庫時,他們就在運行一個自動化過濾工具,不過舒曼感興趣的不是清理,而是從這些資產中學習。

我們本可以從公布的數據中過濾掉暴力,但我們決定不這樣做,因為這將加快暴力檢測軟件的開發。

現在更多關于監管的建議在推動,各個科技大廠也在采取相應的措施,比如英偉達就開源了護欄工具,來防止大模型來胡說八道。

但在舒曼看來,數據集不應該被監控。這也正是當時創建LAION時候的初心。

他還警告,如果我們試圖放慢速度、過度監管,就會有很大的危險,最終只有少數大公司能負擔得起所有的正式要求。

前段時間,在LAION與全球志愿者的合力之下,他們完成了ChatGPT最大開源平替OpenAssistant的發布。

60萬余條訓練數據全部由人工生成,涵蓋了廣泛的話題和語言風格,一時間引發眾人關注,HuggingFace也直接拿來用來構建它自己的聊天軟件HuggingChat。

拿著德國鐵飯碗

不可否認的是,他已經在用開源數據集,加劇了生成式AI的浪潮。

但在舒曼的個人網站上,看到的只是一位兩個孩子的父親,在德國當著終身制公務員,游走于中學校之間講授物理和計算機科學。

舒曼擁有維也納大學計算機科學與物理學學位。在學習這兩個專業之前,他還學了心理學。。

除此之外,他還在學習表演,制作了一部關于孩子學習的紀錄片「SchoolsofTrust」。

最近,這位高中教師也沒閑著,他還將作為2023年智源大會嘉賓參與邀請報告與線上論壇環節。

參考鏈接:https://laion.ai/blog/laion-400-open-dataset/https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicornshttp://christoph-schuhmann.de/https://www.infoq.com/news/2022/05/laion-5b-image-text-dataset/https://laion.ai/projects/

來源:元宇宙之心

Tags:IONAIOAIONLAICrypto Legions Bloodstoneaion幣為什么下架AIONMARS價格CLAIM

芝麻開門交易所
ETH:以太坊的去中心化痛點與解決方案_TROLLER價格

以太坊生態系統比它需要的更加中心化。我們經常稱贊質押的可訪問性,但很少討論大量Ether質押在了Lido。我們支持去中心化貨幣,但仍然嚴重依賴中心化穩定幣發行方.

1900/1/1 0:00:00
LOCK:Block或將于2024年初推出自研比特幣礦機_BLO

金色財經報道,Twitter創始人JackDorsey旗下金融科技支付公司Block最近從英特爾購買大量比特幣挖礦芯片,加速其進入挖礦硬件市場的計劃.

1900/1/1 0:00:00
APP:鏈游版「像素鳥」Flappy Moonbird 憑何估值 6000 萬美元_BIR

撰文:Babywhale,ForesightNews2014年,越南獨立游戲開發者DongNguyen開發的小游戲FlappyBird突然暴紅,在100多個國家/地區的榜單一躍登頂.

1900/1/1 0:00:00
ILY:星球日報 | Sui主網正式上線;Argent推出Starknet xplorer活動(5月4日)_ODA

頭條 Sui主網正式上線,生態項目同步啟動Odaily星球日報訊Sui?主網于今日正式上線,許多鏈上的生態項目也會與主網一同啟動.

1900/1/1 0:00:00
區塊鏈:對話凱文·凱利:AI 會取代人的 90% 技能,并放大剩余的 10%_人工智能

來源:CSDN 采訪|鄒欣,CSDN副總裁作者|王啟隆???責編|唐小引 圖片來源:由無界AI工具生成5000天后,你都會做些什么?是和AI助手一起編程,還是讓生活完全由AI掌控.

1900/1/1 0:00:00
NLA:加密新紀元:EigenLayer何以改變質押游戲?_GEN

作者:DavidHoffman,Bankless編譯:比推BitpushNewsMaryLiu地平線上似乎出現了一個新的“紀元”.

1900/1/1 0:00:00
ads