買比特幣 買比特幣
Ctrl+D 買比特幣
ads

元宇宙:產業|高書生:ChatGPT對文化元宇宙的啟示_GPT幣

Author:

Time:1900/1/1 0:00:00

以AIGC為代表的文化元宇宙前沿科技正在以超乎想象的速度改變著人類的文明進程。有人說,AIGC的火爆出圈將導致元宇宙“熄火”,但真的是這樣嗎?AIGC與元宇宙是什么關系?與文化元宇宙存在怎樣的底層邏輯關聯?為了深入回答上述重大熱點前沿問題,中國文化產業協會文化元宇宙專委會近日舉辦了“文元亮見”系列專題研討會。高書生做了《ChatGPT對文化元宇宙的啟示》主旨演講。

以下為高書生在《AIGC:開啟文化元宇宙新紀元》研討會上的發言:

各位學界朋友,非常高興受邀參加開幕式,今天我就文化數字化和文化元宇宙跟大家交流。

一、破題——從生產的角度探索文化元宇宙

首先我覺得開幕式的主題很好,“開啟文化元宇宙的新紀元”,我對這個主題的理解是從生產的角度探索文化元宇宙,這個意義非常大。因為目前這個階段我們談到“元宇宙”的時候,應該還是在消費層面,但今天這個標題是從生產的角度,不管是過去的PGC還是UGC一直到現在的AIGC,都是從不同的生產方式來講的,這一點還是非常有啟發性的。國家文化數字化戰略就是從供給側入手的,我們叫發力供給側,激活文化資源,推動文化生產體系現代化。

就目前來說,在元宇宙的初級階段,主要還是從消費層面做,也應是數字化文化消費的新場景,而且是數字化文化體驗的一種形式。但我覺得再往前走,實際上已經進入到一個比較高的階段了,實現生產和消費統一,這樣來推動文化元宇宙的發展會更好一些,這是我對今天開幕式主題的理解。

二、數據——數字化時代的生產要素

現在大家都已經認為數據是數字化時代的一個生產要素,但我覺得現在叫“要素”的多,叫“生產要素”的不是太多。

國內首份中小企業數實融合報告:區塊鏈技術加速落地第二產業:11月18日消息,國內首個調研中小企業數實融合實踐的報告《以小“建”大:中小實體企業數實融合新趨勢觀察》正式發布。其中,“區塊鏈技術加速落地第二產業”作為近年來出現的新變化被重點強調。

報告調研認為,隨著社會經濟的數字化程度不斷提高,基于數據的產業協作將迎來爆發式增長機會。在這樣的背景下,以提供“數字信任”為支撐的區塊鏈技術將變得越來越重要,它將大大簡化企業內部以及產業間的協作交易流程,降低信任成本。與此同時,也要注意到,以“區塊鏈+IoT”、“區塊鏈+隱私計算”為代表的融合技術正在快速下沉至實體產業,貼近工業、制造業領域的中小企業,成為助力第二產業發展的中堅力量。[2022/11/18 13:21:59]

1.數據保真:下一步人工智能發展的充分必要條件

從目前非常火的ChatGPT談起,ChatGPT給我們的啟示有兩點,一個是數據如何保真,這個可能是大家非常關心的問題。可能是我工作崗位的原因,我們更多還是從管理的角度考慮問題,所以我們在想數據的保真可能是下一步人工智能發展一個非常重要的充分必要條件。如果說數據不能做到保真,人工智能發展的方向可能就會出現一些不應有的失誤。

從各種討論文章當中大家也都看到了,目前ChatGPT訓練的數據集來源大體上分為六類,包括維基百科、書籍、期刊、互聯網網站等,訓練的數據集在GPT-3里面實際上總量應該有3000億的詞匯,有1750億的參數,這給我們的觸動是非常大的,如果沒有這樣一個數據量訓練的話,人工智能發展確實有很大制約。

這段時間大家都在測試,都是在試新鮮,看看新的聊天機器人水平到底有多高,在這個過程中,可能有些人已經提出了一些問題。大家比較關心的問題就是:互聯網上的數據并不都是準確的,當錯誤的數據量足夠大的時候,就會導致得出的結論也是錯誤的。有一個案例是基于GPT-3的醫療聊天機器人曾經建議病人自殺,這可能是個案,但如果個案多的話,就成了普遍性的了,歸根結底就是數據的保真問題。而且現在所有的人工智能模型的學習都是基于一些歷史數據,還有一些社會學學者也在研究,有可能這些數據當中存在不必要的偏見,這種偏見也會導致社會的排斥和歧視。所以說,扣好文化元宇宙第一粒扣子非常重要,我認為這是AIGC的充分必要條件,也是開發人工智能非常重要的條件。

臺盟中央常委駱沙鳴:七方面加快推動區塊鏈技術和產業創新發展:全國政協委員、臺盟中央常委駱沙鳴日前在由中國信息通信研究院、人民政協報社聯合主辦的新基建、新布局、新動能——產業區鏈接的機遇與挑戰主題“云”座談上表示,加快推動區塊鏈技術和產業創新發展正當其時,要抓住全球疫情對于區塊鏈深度融合發展和數字經濟的新機遇,加快布局區塊鏈技術發展賦能智能制造產業鏈、供應鏈、價值鏈升級和實體經濟數字化轉型、智能化升級。從營造區塊鏈普及應用的社會氛圍、推進區塊鏈和經濟社會融合發展等七方面加快推動區塊鏈技術和產業創新發展。(中證網)[2020/5/13]

這方面,跟我們現在正在推動實施的國家文化數字化戰略有相通的地方。也就是這些數據集到底從哪里來,在中文互聯網的數據質量堪憂的情況下,我們的數據到底應該從哪里來?我們認為應該從中華民族積淀了五千多年的文化資源中轉化而來,這可能是我們下一步應該重點考慮的。可能有人說你這個都是理論的東西,怎么變成現實?

其實在國家文化數字化戰略當中,已經提出了非常明確的要求了。我國是文明古國,也是文化資源大國,這些年我們在推動文化數字化過程中,特別是文化資源數字化過程中,也積攢了大量的文化資源數據,這些數據大多數都集中在公共文化機構。所以說這次中辦國辦文件當中明確提出公共文化機構要向社會釋放數據,要依法向社會公眾開放,讓大家都從這些數據當中提取具有歷史傳承價值的中華文化元素、符號和標識,并把它們轉化為文化生產要素,從而就成為文化元宇宙,以及文化創新和創造的文化素材,這在國家文化數字化戰略當中是非常明確的。

湖北:大力發展人工智能、區塊鏈等信息技術產業:5月11日,湖北省委副書記、省長、省政府黨組書記王曉東主持召開省政府黨組(擴大)會議、省政府常務會議。會議強調,發展數字經濟,既是大勢所趨,也是發展所需,對推動我省疫后重振、搶抓技術革命機遇、搶占高質量發展制高點,具有重大意義。要搶抓新產業、新業態、新模式發展新機遇,加快5G網絡、數據中心等信息基礎設施建設,大力發展云計算、大數據、人工智能、區塊鏈等信息技術產業,推動工業、農業、服務業數字化轉型,著力培育高質量發展新動能。(湖北省人民政府門戶網)[2020/5/11]

具體來說,我們現在數據量是非常大的,包括文化館、圖書館、美術館、博物館。我們尤其關注的一個點是地方志,地方志的數據也是非常珍貴的。根據中國地方志指導小組統計,到2020年,我們省、市、縣三級的地方志已經完成了有5000多部,到2020年底公開出版的已經有4900多部,同時現在又增加了一些部門志、行業志和專題志,這個數量就更大了,有25000多部。

同時像鄉鎮志、村志,還有過去的舊志,應該說這個量是非常大的。更重要的是這些年地方志的數字化已經有了一個長足的進展,截止到2019年年底,省、市、縣三級光建成的數字方志館就有100多個,我估計現在會更多,像新華智云說已經有25個省、自治區和直轄市的數字方志館。我們為什么用地方志呢,因為地方志是中華民族積淀5000年文化資源的底部,如果我們把地方志做通了,可能很多東西都可以做的。

還有就是文化和旅游部下面有一個中國民族民間文藝發展中心,業內人認為這是一個文藝長城工程,大概是從“六五”時期開始做的,用了三十年時間,動員了三十多萬人的力量,最后收集到民族、民間的文藝資料是非常多的,總量應該是在50億漢字左右,包括民歌、民間故事等等。現在已經出了很多書,也在推動進一步的數字化。還有一些中央新聞單位的數據量也是非常大的,例如人民日報、新華社、中央電視臺、中央人民廣播電臺,還有國際臺。我們出版業的數據也非常多,期刊里面有知網、萬方、維普等,圖書領域綜合性的有國家數字圖書館,還有一些專業專題性的數據庫也非常多。

動態 | 網信大廈將著力培育發展以區塊鏈等為主攻方向的數字經濟產業:據中國新聞網報道,第三屆世界智能大會構建共享、開放、融合、創新大數據生態體系論壇16日在梅江會展中心召開。會上,天津市網信辦與河西區政府、中冶置業集團正式簽署三方合作協議,共同打造天津市數字經濟產業創新中心(網信大廈),該大廈將著力培育發展以互聯網為底層技術,以網絡內容生產、網絡信息傳播、網絡安全服務、網絡金融支付、網絡文化創意和移動互聯網、物聯網、大數據、人工智能、云計算、區塊鏈等為主攻方向的數字經濟產業,精選引入優質企業入住。[2019/5/16]

同時,我們民間的數據量也非常大,為什么說是民間的,實際上從1983年、1984年開始,錢鐘書老先生曾經開辟了一項事業,就是對中國古典文獻做數字化。他在世的時候做了17年,去世以后這項工程又持續了二十多年,他們有個公司叫“掃葉”,現在積累的漢字數總量在20億左右,其中漢字庫是目前我們看到的最全的。我們知道《康熙字典》最多是4萬多字,現在據說他們已經達到了將近8萬個漢字,收錄了36萬人,比《中國人名大辭典》多出5倍,這里面有作品庫、地名庫,還有一些工具庫、圖片庫、地圖庫等等,這個量也是非常大的。包括我們中華書局也在做相應古籍的整理,這個量也是很大的。

再看看有些地市級也在做大量的數據庫,包括陜西渭南有一個“兩河一山”文化數字記憶項目,他們積攢的數據庫就有十個,包括重點文物保護、古代的書院、民間傳說、詩詞歌賦、歷史文化名城、名鎮、名村、名人數據庫、非遺數據庫、古籍目錄數據庫、傳統戲曲劇目劇本數據庫,還有紅色文化資源數據庫,有10個數據庫,量還是非常大的。所以說,我們現在在推動實施國家文化數字化戰略過程中的一項重要任務,就是關聯形成中華文化數據庫,這對整個人工智能的發展,通過人工智能創造生產更多面向大眾的文化數字內容而言,是一個基礎性的工程。

貴陽區塊鏈產業分析:相關政策出臺早、出臺多,但經濟教育基礎薄弱導致發展受制約:鏈塔智庫發布最新報告稱,貴陽經濟和教育基礎較薄弱,對該地區區塊鏈發展有掣肘作用;但優勢是區塊鏈政策出臺早、出太多,有資金扶持,具有可操作性。貴陽區塊鏈發展依托于貴州省大數據產業基礎;應用場景較多,但落地項目較少,只有精準扶貧應用落地;專利數量不多,技術人才需求不多,與其區塊鏈戰略桂華有一定差距。擁有兩家研究院,走在其他城市前列。[2018/5/16]

我們現在講數據驅動,這個數據應該是具有文化內涵的數據,現在數據量非常大,但還沒有去做標注、標引,那文化內涵是體現不出來的。我們過去經常說一句話“基礎不牢,地動山搖”,現在我們許多產業項目、在推廣的很多東西,包括互聯網大廠在做的一些事,總的感覺是在沙漠上蓋高樓,地基不穩,什么事都做不大。所以為什么人家說,ChatGPT沒有在中國產生,我覺得這就是因為我們基礎不牢。

2.數據標注:把數據的采集、加工和數據服務變成一種經常性的工作

第二個啟示,就是數據的標注。有專家向ChatGPT提出:“請模仿杜甫寫一首詩”,結果并不是很理想,因為呈現并不好。有的專家分析,在它的語料庫中沒有對漢語的韻律、字節做標注和訓練,這可能是非常重要的原因。我們有了數據但不去做標注,那人工智能也發展不起來。對于數據的標注,我們這次在國家文化數字化戰略當中有了一個明確的要求,就是希望各級各類文化機構,要把數據的采集、加工和數據服務變成一種經常性的工作。

數據的標注主要是從三個方面著手,首先要對數據進行分類,我們現在按照聯合國教科文組織分的六大類別,包括自然和文化遺產、表演和慶祝活動、視覺藝術和手工藝、圖書和出版、視聽和互動傳媒、設計與創意服務六大類別。其次在這個基礎上,每個類別里都有一些專題的知識圖譜,我們就可以依據它來做編目。分類和編目,實際上對數據定下坐標了。最后我們還要對數據的特征進行描述,即數據的標簽化。

在這方面,我們國家這幾年有了長足的進展,例如百度在全國有七個已經建成的數據標注基地,我去看過其中一個在山西太原的基地,當時我還沒有什么感覺,去年突然間發現這是一個非常大的產業。山西太原這個基地是入駐在山西的綜改示范區,到2022年的5月份,辦公面積已經超過19000平米,有5000名數據標注師,有53家代理商入駐,從2018年進駐到2020年5月份,累計的產值已經超過5個億,累計培育孵化了41家的數據標注企業。

文化領域的里面也有,同時我也參觀了中國知網在太原的數據加工基地,他們是對期刊和報紙,包括一些論文做標注,而且這個量也是非常大的。剛才我們說太原的百度基地,每年的營收應該在1個億左右,中國知網的太原數字出版數據加工基地營收也是在一年1個億左右,這個量也是非常大。因此我們今年就想,在全國建設國家文化大數據標識基地,在標注的基礎上再賦標識符,使具有文化內涵的數據,真正能夠在國家文化專網互聯互通,這是一項基礎性工作。

在這兒,我想多解釋幾句,我們用的標識是我國提案創建的國際標準,叫ISLI,就是國際信息和文獻領域關聯標識符的國際標準。我們現在文化數字化采用的是標識解析,這跟互聯網的域名解析有很大的區別。區別在哪里呢?我們的域名解析是把域名變成了IP地址,用IP尋址的方式來解析。文化數字化用標識解析,用我們國家提案并創建的國際標準,為每一個數據賦標識碼,然后我們自己有一套解析系統。它跟域名解析最大的區別是,我們標注的標識碼后面都包含兩個主要內容,一個是數據的元數據信息,一個是數據的訪問地址。

這樣的話,這個國際標準就發揮它的四大功能:第一就是標識,標識編碼由十進制的數字和三個字段構成的;第二用這個碼構建數據和數據之間的關聯關系,這一點非常重要,這也是國際信息和文獻領域當中唯一一個具有關聯功能的國際標準;第三就是它的解析功能;第四是鑒權功能,驗證用戶是不是擁有訪問系統的權利,也即版權的認證,這些問題我們全解決了,在數字化時代,所有數據涉及到的版權問題,用標識解析就可以解決。

這樣就達到了三個目的:第一是數據的互聯互通,因為它有地址和元數據;第二是數據的分布式存儲,現在的文化機構最大的問題是擔心自己的數據被別人盜取,所以我們一方面先用了國家文化專網,跟互聯網是物理隔離的,同時我們也采用了標識解析,可以實現物理分布、邏輯關聯,即誰的數據還是在誰的服務器里,或者數據中心里面,但是由于它可以互聯互通,別人知道你有數據,然后可以進行交易,通過授權使用這個數據來做加工;最后一個是數據的確權,每個數據都有唯一的身份證,而且是伴隨著這個數據的全生命周期,從采集、加工、生產、交易到最后數據的呈現全過程,以及它和其它的數據融為一體之后所產生的新的文化數字內容,這個過程中每個數據都可溯源,這是標識解析解決的非常重要的問題。

最后我想這樣一個標識解析,對于文化元宇宙下一步的發展很有啟發意義。我們認為文化元宇宙的核心要素就是三個:第一是數字身份,第二是數字貨幣,第三是數字資產。在這個過程中,如果把電視機作為元宇宙的入口,把電視機的機頂盒變成元宇宙的發射器,用剛才說的國際標準的標識符作為數字身份,而且國際注冊機構已經授權中國公共關系協會文化大數據委員會作為中國區的注冊機構,ISLI的DRA扮演元宇宙“戶籍警”的角色。

數據身份認定之后,給個人機構以及對數據和內容都可以做標識,那整個元宇宙發展的“底座”就有了,不會像過去那樣先發展后治理的模式。在這個基礎上,我們就可以發展一種主權鏈。在中辦國辦文件里面明確提出推動標識解析與區塊鏈、大數據等技術融合發展,在這個基礎上依托我國主導的國際標準,它的手段就是依托國家文化大數據標識注冊中心,實現這個標識解析體系和當下在發展的各種聯盟鏈對接。用這樣一套系統,給各個基于區塊鏈的聯盟鏈做背書,也就是說我們可以扮演一種公鏈的角色,從而推動整個區塊鏈技術向前一步。

最后我建議我們在研究過程中,對文化元宇宙還是要考慮它的治理成本,千萬不能再重蹈互聯網“先發展、后治理”的覆轍,成本太高了。

作者:高書生

責編:勾曉慶

Tags:元宇宙人工智能GPT元宇宙平臺公司找幻霄元宇宙概念是什么意思NFT元宇宙體驗館需要投資多少錢人工智能技術應用學人工智能后悔死了人工智能考研考哪些科目GPT價格GPT幣

以太坊交易所
ZDG:比特幣未來還能漲嗎?BTC爆炸式發展——反彈即將到來嗎?_比特幣最新價格行情走勢ZDG價格

1 比特幣上漲10% 星期一比特幣交投于22,449.8附近,上漲幅度達到10.13%,這是從2022年11月10日以來,該幣種獲得的最大日漲幅.

1900/1/1 0:00:00
馬斯克:馬斯克將Twitter的藍鳥圖標換成狗狗幣,狗狗幣價格一夜暴漲30%_數字貨幣詐騙案例視頻馬斯克五大發明改變世界

4月4日,Twitter首席執行官馬斯克在他的個人主頁上做了一個驚人的舉動:他將公司網站上原本代表著Twitter品牌形象的藍鳥圖標換成了一張數字貨幣標志柴犬的圖片.

1900/1/1 0:00:00
ABS:限量發售100臺!Vespa推出特別版車型,售價17.1萬新臺幣_LED幣

有一個摩托品牌不以性能聞名,也不以性價比見長,特點就是車型優雅版畫繁多價格高昂,那就是踏板界的奢侈品牌vespa.

1900/1/1 0:00:00
TOP:「未解之謎」10種最罕見的自然奇觀,有些數百萬年才能發生一次_TOPTOP價格

你見過最恐怖的自然現象是什么?你知道沙漠怪圈形成的原因嗎?在我們生活的地球上,到處都是自然奇觀,每天都能發現新的令人驚奇和不可思議的地方.

1900/1/1 0:00:00
智能鏈:PancakeSwap TVL暴跌12%,這家交易所是不是受到了致命一擊?_以太坊幣是什么幣

PancakeSwap(CAKE)是在幣安智能鏈(BSC)上運行的領先的多鏈去中心化交易所(DEX),其總鎖定價值(TVL)大幅下跌12%至24億美元.

1900/1/1 0:00:00
AMC:東風標致408X預售:發現心中不被限制的無界之美_GAMC價格

有人買車時不曾受“邊界”限制嗎?我是新生代,就該駕駛如雨后春筍般涌現又或將幻滅的新勢力;我追求小眾而有個性,就要挖空心思尋覓路上不多見的小眾車彰顯自我;我小有成就,就該入手一臺BBA中級車.

1900/1/1 0:00:00
ads