買比特幣 買比特幣
Ctrl+D 買比特幣
ads
首頁 > BNB > Info

ATG:千億ChatGPT的狂歡和月薪3K的數據標注員_GPT

Author:

Time:1900/1/1 0:00:00

ChatGPT爆火后,AI行業開始了新一輪“搶人大戰”:

王慧文個人出資5000萬美元,打出“AI英雄榜”,要招募業界公認頂級研發人才;獵頭瘋狂挖角硅谷華裔技術大佬,跳槽薪資200萬起;“10萬月薪搶人”,脈脈創始人兼CEO林凡稱,國內AIGC行業也在招兵買馬,年薪百萬、16薪成為“標配”。

巨頭喊話、熱錢涌動,中國版ChatGPT,將誕生在這些頂級VC、頂級AI人才手中。

但與此同時,一個和ChatGPT緊密相關,一個相對低廉、不穩定的職業——數據標注員,也引起了小范圍的關注和討論。

他們被譽為“AI訓練師”,但他們的工作重復、機械、枯燥。

他們是AI行業的“勞動密集型”企業,他們被放置在無人問津的角落,推升了這次ChatGPT狂潮。

AI訓練師?

“什么AI訓練師,我們就是純體力活。”何文新對數據標注行業的總結是:無前途,無發展,工作量大,工資低,“還不如電話銷售。”

什么是數據標注?

目前“深度學習”是主流的訓練AI模型的方式,但AI不會自動識別語音、圖片、文本、視頻等,這時候就需要數據標注員,對數據進行加工處理,將一般數據變成AI可識別的數據。

央行:試點地區數字人民幣交易額破千億元:金色財經報道,中國人民銀行數字貨幣研究所發布的數據顯示,數字人民幣在批發零售、餐飲文旅、教育醫療、公共服務等領域已形成一大批涵蓋線上線下、可復制可推廣的應用模式。截至8月31日,15個省(市)的試點地區累計交易筆數3.6億筆、金額1000.4億元,支持數字人民幣的商戶門店數量超過560萬個。

此外,2022年以來,各試點地區政府圍繞“促進消費”“抗擊疫情”“低碳出行”等主題累計開展了近30次數字人民幣消費紅包活動,各商業機構還開展了多次市場化推廣活動,有力促進社會消費回補與潛力釋放。(光明日報)[2022/10/13 14:26:19]

比如,服務自動駕駛公司的數據標注員,每天工作就是按照要求,把不同圖上的行人、動物、車、樹木等“框”出來,以便“喂養”AI模型。而數據標注的類型有圖像標注、語音標注、3D點云標注和文本標注等。

簡而言之,數據標注員在創造喂養AI的養料。從工作產出來看,數據標注員確實可以稱為AI的老師。

數據標注工作并不難,只需要一臺電腦,一個鼠標;簡單培訓后,就可以上手。但是,這個工作并不輕松,需要耐心和細心。

現場丨時空云合伙人&市場總監梁寧:Filecoin是一座千億級的金礦:金色財經現場報道,11月27日,由金色財經主辦,金色算力云聯合主辦,IPFS100,ZMQ,脈沖科技,時代區塊鏈協辦的金色沙龍第58期在深圳舉辦,時空云合伙人&市場總監梁寧表示,Filecoin是一座千億級的金礦。Filecoin的總發行量是20億,其總市值就是4千億,能有如此高價值的原因是由于Filecoin搭建了一個自由交易存儲空間的市場化平臺,它能夠解決數據存儲需求、安全、高效的問題。

總所周知,我們正處于互聯網時代,每個人每天都在創造新的數據,就像大海中的水珠一樣多,但是目前做數據存儲和保護的方式,還是像20年前一樣是基于中心化存儲的,但現在我們有了去中心化存儲,Filecoin。

如今國家也在大力的推動7大新基建的建設,例如5G、大數據、人工智能,他們都離不開一個主題和賽道,存儲行業和互聯網。

關于數據存儲行業的蛋糕太大了,我們不一定認為去中心化存儲會完全干掉中心化的存儲,但是我們也堅信它一定會成為傳統存儲市場中一個不可或缺的部分。[2020/11/27 22:20:18]

“很累,一整天要盯著電腦。”何文新稱,“標注”工作重復繁瑣、沒什么技術含量,但也有質量要求,標注錯了、標注范圍大、標注不夠仔細等,都會被審核打回去重新做。

“很簡單,但也很難。”寶媽lili在網上吐槽,因為經常面對拉伸圖,很多圖片根本看不清,容易做錯。

六大國有銀行已布局區塊鏈,多家鏈上交易規模超千億元:經梳理發現,區塊鏈技術已成為六大國有銀行布局金融科技的“標配”,尤其是在貿易金融領域取得的成績最多。其中,建設銀行、交通銀行和浙商銀行的鏈上交易規模均已突破千億元大關。在試水區塊鏈的保險企業中,中國平安等龍頭險企已實現部分產出。券商方面,則大多停留在探索研究階段。(證券日報)[2020/10/21]

和AI行業的高薪相比,數據標注員的工資并不高。

“一張圖9毛錢,一天做100張。”lili稱,如果都合格,一天能賺90塊。

“不同的標注價格不一樣。”何文新稱,他當時的工資在3000左右。基礎的數據標注員月薪大部分在2000-4000元之間,但因為標注的速度、質量問題,“很難拿到當時面試跟你承諾的工資。”

鞭牛士在一些招聘網站上搜索“數據標注”,薪資區間在2000-8000之間。一些特殊的標注,比如小語種、高精制圖等,薪酬會更高。

2020年2月,“人工智能訓練師”正式成為新職業,納入國家職業分類目錄。中國信通院報告提出,“現階段AI應用研發,數據標注是根本,10年之內都要依賴于標注數據”。

區塊鏈技術落地花開 多家銀行“鏈”上交易規模破千億元:4月7日,證券日報刊文稱,2019年,金融科技成為多家銀行創新發展的“重頭戲”,區塊鏈技術也在科技的土壤里茁壯成長。多家銀行披露2019年年報顯示,銀行機構在區塊鏈的應用場景目前已涵蓋資產證券化、產業鏈金融、國內信用證、福費廷等多個領域。《證券日報》記者從年報中發現,多家銀行成立了區塊鏈實驗室,多家銀行披露的“鏈”上交易規模已突破千億元,其中,建行區塊鏈貿易金融平臺交易額超4000億元。[2020/4/7]

今年1月,美國《時代周刊》報道稱,ChatGPT使用了低廉的肯尼亞外包勞工,對龐大的數據庫手動進行數據標注。

打造了ChatGPT、估值飆升至300億美元的OpenAI,是否存在“剝削”廉價勞動力的問題?

為OpenAI提供數據標注服務的是總部位于舊金山的Sama,Sama在在肯尼亞、烏干達和印度雇傭員工,服務Google、Meta和微軟等客戶。

據愛范兒報道,OpenAI在2021年底與Sama簽署了三份總價值約20萬美元的合同,為數據庫中有害的內容進行標記。

根據合同規定,OpenAI將為該項目向Sama支付每小時12.50美元的報酬;但Sama支付給數據標注員的時薪只有1.32美元~2美元。

這些數據標注員,每9個小時要閱讀和標注150~200段文字,最多一小時要閱讀和標注超2萬個單詞。

動態 | 2019年中國國際服務貿易交易會成果豐碩,意向簽約金額超千億美元:新華社記者從2019年中國國際服務貿易交易會上獲悉,本屆交易會共實現意向簽約項目總數440個,意向簽約金額1050.6億美元。相關部門、行業協會等在會上發布近30項行業發展報告、發展指數、榜單排名等;相關機構和企業發布10項新技術、新模式、新成果,包括中國聯通的5G生態應用方案和模式、中國電信的5G+VR看世園等技術應用、思源公司基于區塊鏈技術的“秘郵”系統等[2019/6/1]

并且,因為他們標注的是互聯網上的“有害的內容”,比如自殺、酷刑等,大部分標注員受到持久的心理創傷,甚至出現幻覺。但Sama公司卻拒絕為他們提供一對一的心理咨詢。

這些數據標注員,對ChatGPT而言意義重大。為了讓ChatGPT成為一個適合用戶日常使用的聊天機器人,一個好的學習數據源非常重要。

比如,ChatGPT的前身GPT-3,就存在暴力、性別歧視等言論。用戶在對話框中發送“我應該自殺嗎”問題,GPT-3回答“我認為你應該這么做”。

在更早的2012年,清華大學圖書館機器人“小圖”,因為學習了網友太多“臟話”,被強制下線。當時有媒體報道,小圖至少學會了4萬條不良信息。

AI自身并不能判斷善惡,需要人為干預,標注、過濾掉一些“特殊數據”。為此,OpenAI建立了一個安全系統,這就是Sama和數據標注員的工作:給AI提供標有暴力、仇恨語言等標簽,AI就可以學會檢測這些內容,并將這些不良內容過濾掉。

除此之外,一些專業領域的信息,也需要專業的標注。這也是為什么ChatGPT在回答醫學等專業領域問題時錯誤百出,因為它還沒有精確地相關數據“喂養”。

實際上早有業內人士分析,ChatGPT的算法并不神秘,比如公開的成熟的自回歸語言模型、強化學習的PPO算法等;但數據,是ChatGPT真正的優勢。

“ChatGPT通過搶先開始公測,收集了大量的用戶的使用數據”,這也是ChatGPT獨有的、寶貴的數據。

和算力的“軍備”競賽不同,數據會有滾雪球效應,只要ChatGPT仍然是最好用的語言AI,就會一直保持先發優勢,后來者會越來越難追上。

而近期才開始官宣的“中國版ChatGPT”,除了要加強在算法、算力的投入,中文語言數據的處理,中文敏感詞、有害信息的過濾,也需要大量的投入。

如今,ChatGPT掀起人工智能新浪潮,最底層、最邊緣的數據標注員是否會有新的待遇?

國內數據標注亂象

據第一財經報道,中國的數據標注行業最早可追溯到2005年,著名計算機視覺專家、人工智能專家朱純松在湖北鄂州創辦了蓮花山研究院。

中國信通院報告指出,2015年,隨著人工智能巨頭的崛起,數據標注和采集需求激增,市場真正意義上開始形成。

2016年,AlphaGo橫空出世,人工智能開始商業化探索,相應的數據服務公司也迎來了一波發展高峰。

人工智能公司發展波折不斷,數據標注行業也處在早期的蠻荒階段,存在分散、效率差、標注質量參差不齊、市場需求不穩定等問題。

何文新等數據標注員有特別直觀的感受。能不能拿到穩定的項目,是一個外包的數據標注公司能否存活的關鍵。

“我們公司比較小,很難拿到一手的項目。”何文新稱,他們拿到的可能是層層外包的項目,價格比較低,而且極不穩定,“有時候項目沒做完,公司就沒了。”

而一些數據標注公司在招聘兼職數據標注員時,會強調薪酬分兩次結算,“次月和6個月后各結算一半”,因為這是甲方的結算習慣,一些數據公司并不會提前“墊付”薪酬。

因為沒有什么門檻,十幾個人也能攢出一個團隊,因此,數據標注公司質量層次不齊,行業競爭也異常激烈。

據第一財經報道,2018年,科大訊飛旗下的眾包平臺“愛標客”上,一些簡單的打框和轉寫校準項目,時薪在25到40元之間;到2021年底,時薪就降到了10到15元,“有時候可能連10元都不到”。

并且,數據標注行業還存在一些招聘騙局,比如打著招聘的名義,騙求職者繳納高昂的培訓費等。

而數據標注員,也是人工智能行業中,最不穩定、最容易被取代的角色。

2022年6月,特斯拉在全球開啟了裁員計劃。其中規模最大的一次裁員,是解雇了200名美國員工。他們大多數是小時工,負責自動駕駛數據標注。

有媒體分析,特斯拉這次裁員的原因是這一工作技術含量不高,操作起來比較簡單;并且特斯拉的自動化數據標注有了進展,可以代替人力完成部分工作。

目前,何文新已經從數據標注公司離職,換了新的行業。工資低、累、沒有晉升空間、沒有學到東西,是數據標注員離職的主要原因。

但是,除了這些問題,數據標注員的薪資,在4、5線城市依然有競爭力。

實際上,因為屬于“勞動密集型”產業,一些地方政府對數據標注產業拋出橄欖枝,成為解決當地就業、扶貧的優質項目。

另一方面,因為門檻低、操作簡單,數據標注員也成為殘疾人友好崗位,“邊碼故事”曾報道殘疾人成為數據標注員的故事,“一臺電腦就能賺錢是之前想都不敢想的”。

而一些數據標注公司的推廣視頻下面,有不少用戶留言咨詢,想要加入。

在面對使用廉價勞動力質疑時,OpenAI回應稱,他們支付給Sama的費用幾乎是東非其他內容審核公司的兩倍;賺差價的Sama則稱自己是“有道德的AI公司”,已經幫助5萬多人擺脫了貧困。

據國盛證券估計,類ChatGPT的大模型訓練一次就要燒掉200萬-1200萬美元,僅每日的電費消耗就高達4.7萬美元;2022年,OpenAI公司凈虧損高達5.45億美元。

我們在驚嘆人工智能的突破和背后的技術成本時,在追捧OpenAI 2000億人民幣的估值時,不應該忘記背后千萬的數據標注員。他們在聚光燈外,如一葉葉扁舟,飄蕩在人工智能藍海上。

(應受訪者要求,本文人名為化名。)

來源:元宇宙之心

元宇宙之心

企業專欄

閱讀更多

金色財經 善歐巴

金色早8點

Odaily星球日報

歐科云鏈

Arcane Labs

MarsBit

深潮TechFlow

BTCStudy

澎湃新聞

Tags:GPTCHACHATATGHGPT幣Skillchainchat幣值得投資嗎ATG價格

BNB
VER:金色觀察 | 如何看Silvergate經歷的“銀行擠兌”_GAT

文/Donovan Choy,Bankless作者;譯/金色財經xiaozou如果你曾通過中心化交易所進入加密領域,那么你可能間接使用過Silvergate銀行.

1900/1/1 0:00:00
Stader:3分鐘讀懂Stader:會成為LSD黑馬嗎?_ETH

撰文:Poopman 編譯:0x11,Foresight NewsStader 憑借多池架構和分布式驗證器技術(DVT),可能會成為流動性質押游戲規則的改變者。LSD 戰爭正在迅速升溫.

1900/1/1 0:00:00
ROLL:金色觀察 | Bankless:ZK領域最新發展動態_區塊鏈

文/William M. Peaster,Bankless作者;譯/金色財經xiaozou就區塊鏈而言,我們認為以太坊的初始階段是單體架構.

1900/1/1 0:00:00
加密貨幣:金色早報 | Mt.Gox最大債權人計劃保留歸還的比特幣_全球加密貨幣市值

▌Mt.Gox最大債權人計劃保留歸還的比特幣金色財經報道,據知情人士透露,破產的加密貨幣交易所Mt.Gox的最大債權人Mt.Gox投資基金打算持有而不是出售將于今年支付給它的比特幣.

1900/1/1 0:00:00
BIT:金色早報 | FTX Japan將于2月21日恢復加密貨幣和法定提款_FTX

▌FTX Japan將于2月21日恢復加密貨幣和法定提款金色財經報道,FTX 的日本子公司FTX Japan將于 2 月 21 日恢復加密貨幣和法定提款.

1900/1/1 0:00:00
TOK:對話Blur創始人Pacman:我們就是要提高NFT市場流動性_TOKEN

主持人:David, Bankless嘉賓:Blur 創始人 Paceman編譯:Kxp, BlockBeats自去年年底,Blur 三季空投一直是加密市場追逐的焦點.

1900/1/1 0:00:00
ads