買比特幣 買比特幣
Ctrl+D 買比特幣
ads
首頁 > TRX > Info

EPIK:小牛思拓董事長兼CEO王會珍:數據標注助力知識獲取_PRO

Author:

Time:1900/1/1 0:00:00

1月10日,2021開源知識運動線上研討會成功舉辦。EpiK邀請清華大學信息技術研究院副院長邢春曉、中國計算機學會知識圖譜SIG主席、著名知識圖譜專家王昊奮、著名數據及知識圖譜公司創始人及項目負責人王會珍等重量級嘉賓參與,各位專家學者紛紛發表主題演講,為開源知識運動做了不同角度的解讀。

今天我們來分享東北大學計算機應用專業博士、小牛思拓(北京)科技有限公司,董事長兼CEO王會珍主題演講《數據標注助力知識獲取》,全文如下:

謝謝主持人的介紹,感謝Epik的邀請,很高興參加今天的研討會,今天我的演講題目是數據標注助力知識獲取,王昊奮老師提到了知識圖譜的構建和審核,邢老師講解了區塊鏈的發展趨勢,同時也提及了數據體系的構建融合,這種跨領域的數據的挖掘應用,包括知識體系的構建,實際上所有工作,我是認為都是離不開數據標注的。

小牛思拓已做了三年的數據標注服務了,今天跟大家分享這些年我們在數據標注方面的經驗。

我是東北大學自然語言處理實驗室的老師,實驗室從80年開始做自然語言處理。我從碩士博士都是做ROP方向的,在做算法時,在研究方向上發現,基本上都是在少數例題做驗證。但是2012年成立公司做產學研落地時,團隊發現實際上小數據是很難進行落地的,比如說機器翻譯。以小牛思拓的一個產品小牛翻譯為例,當前可以支持304種語言的互譯,而且翻譯質量非常好,這得益于有中英兩億個聚對后臺支撐,用深度學習的方法去訓練機器翻譯引擎。因此,在做算法或人工智能方法技術落地實踐中,數據標注就顯得更加重要。只有高質量的帶標注的數據才能支撐算法學習。

Marathon Digital二季度產出2,926 BTC,環比增長33%:金色財經報道,Marathon Digital高管在財報電話會議上表示,第二季度的算力增長了54%,從11.5 EH/s增長到17.7EH/s。 該公司二季度產出2,926 BTC,與第一季度的2,195 BTC相比環比增長33%,第二季度BTC總量約占該期間可用比特幣網絡獎勵的 3.3%。

此外,Marathon出售了本季度生產的63%的 BTC,以支付運營成本,總收益達2340萬美元,該公司二季度的凈虧損為2130萬美元,高于上一季度約700萬美元的凈虧損。[2023/8/9 21:33:04]

什么是數據標注?

什么是數據標注?數據標注是小牛思拓的重要業務之一。公司一開始定位的是做文本的標注。在這個層面,其實大家對圖像和聲音的標注會更熟悉,比如人臉識別標注出來加在圖片里;比如,在線會議可以直接同屏有字幕,這種可以由語音自動轉換成文字的標注。

下面是文本標注的兩個例子,其中一個是從一句話里面能標注出來實體,并要找到兩個實體間的關系;另一個是智能語音對話形式很火,如發布一個問題,首先,我們要理解出來這個問題的意圖是什么,這個問題還有很多種方法,不管是哪種方式去提問,我們都可以找到它對應的答案,所以這里面是我們一個問句復述的例子,給出一個問句,我們標注師要能夠寫出來十個句子,不同的說法,但是跟這個句子的問題都是一致的,這個是復述的例子。

接下來是從圖像、聲音、文字不同的處理對象,進行一些標注的樣例,實際上最終的都是要有大量的人工去標注好的,或者是半人工標注好的帶標數據來供機器訓練和學習。

Tokens.com Q2加密資產的非現金收益為260萬美元:金色財經報道,Web3加密資產上市公司Tokens.com報告其2023年第二季度財務業績。截至2023年3月31日的三個月,公司的凈收入為170萬美元,而2022年第二季度的凈收入為780萬美元。截至2023年3月31日的三個月,其加密貨幣資產重估的非現金收益為260萬美元,而2022年第二季度的虧損為230萬美元。[2023/5/12 14:59:51]

當前有幾千家數據標注的公司比如京東百度等都有眾包平臺,通常都是群體智慧,包括區塊鏈也是加入了很多的群體智慧。這就不得不提數據標注的重要角色—標注師,來了數據任務的時候,我們就需要給他進行任務分配,這是傳統模式。

現在我們新的模式,在兩方面進行處理,第一個,在任務層面,由于有ROP的技術,我們會做一些相似任務的訓練分析,我們認為把相似的問題都給同樣的一批人,會提高效率。另一方面,利用一些自動的技術,比如說我剛才提到的去做關系抽取,可以做出來一個關系抽取的模型,對數據進行預處理,然后我去用模型先預標注,預標注的結果再扔給標注師,他們在里面進行審核校正,就可以提高標注的效率。這個是我們從數據模型和人員方面進行的新模式嘗試。

經過三年打磨,目前,我們團隊已形成了完善的數據標注工作流程。當我們拿到任務需求時,我們需要與用戶明確標注規范,去試標,用戶認可標注的方案和報價,彼此達成一致則正式開始標注任務。

首先,我們會對標注師進行培訓,因為每個數據標注任務都是不同的,都需要重新進行培訓。

Adidas宣布與tokenproof合作將其運動和生活方式品牌引入NFT社區:金色財經報道,Adidas 宣布與 tokenproof 合作,將其運動和生活方式品牌引入 NFT 社區。Adidas 利用 tokenproof 的尖端身份驗證方法來增強其 Web3 存在。此外,超過 25 個國家/地區的數百萬阿迪達斯 CONFIRMED 用戶現在可以使用令牌證明連接他們的錢包來確認他們是否持有 ALTS by Adidas 代幣。

通過操作,用戶將獲得特殊津貼作為獎勵。這包括訪問限量版產品。首個 “Indigo Herz Pack” 是與 BAYC、Gmoney 和 Pixel Vault PUNKS Comic 合作設計的。[2023/5/4 14:41:23]

其次,培訓合格后,開始實施任務。實施的過程中我們就會有各種的質量的監控,有去完善標注的規范,再培訓。

再次,并非達成一致后就原封不動地按照客戶給確認的規范執行,小牛團隊與客戶是強溝通關系,我們不斷的從規范迭代更新,規范重新定義好以后,我們再培訓,再質檢,不合格的實時淘汰。

在標注的實施過程,我們有自己的標注工具,我們會有一些抽檢和埋雷,及時的發現標注師哪塊可能會存在質量的不合格風險。再后面還會有一些抽檢,這是在標注過程中隨時做得。在確認標注質量合格后會提交給客戶,客戶這邊進行驗收,最終結算,銷毀數據。

當前也在考慮是否可通過采用區塊鏈的技術保證數據的安全,我們現在的處理方式就是提交完客戶以后,我們會把數據進行銷毀,這個是現在整個的標注工作流程。

Shiba Inu二層解決方案Shibarium早期Beta公測版已上線:3月12日消息,SHIB首席開發者Shytoshi Kusama發文稱,Layer 2區塊鏈解決方案Shibarium早期Beta公測(Early Public Beta)PUPPYNET已經上線。

文章稱,Shibarium是一個Layer 2區塊鏈,允許任何人構建DApp,將其集成到現實生活業務中并為項目提供支持。該網絡交易成本低,在此過程中銷毀SHIB,并且隨著Beta測試在接下來幾個月里繼續進行而進行調整。SHIB的銷毀將取決于網絡中的交易,官方會在銷毀門戶網站上提供SHIB銷毀圖表。這是Shibarium網絡測試的一部分。

文章提醒稱,目前Shibarium上的產品僅用于測試目的,“PUPPYNET上的所有代幣都不是真實的。”此外,針對潛在的驗證者,官方下周將發布相關文檔,以便其設置測試節點。

文章還發布SXSW電影節的Shib the Metaverse展位截圖,MV團隊已設置WAGMI TEMPLE的Early Alpha體驗,供媒體和社區觀看。[2023/3/12 12:58:37]

數據標注如何助力知識獲取?

數據標注如何來助力知識獲取呢?知識獲取簡單的說,就是我們要用機器獲取知識,有廣義的知識獲取,如機器里通過不斷的程序運行,不斷的進行知識的積累,它能夠自動的,像人有理解和舉一反三的能力一樣,不斷的對這個知識進行擴充;同時也有狹義的是如我們一直在做得,包括我們知識圖譜的人員也在做的一件事,通過程序和人機交互或者是很多的知識圖譜的工具,通過專家或者是領域專家來去構建知識庫的過程。

Ripple與支付公司MSF Africa達成合作:金色財經報道,Ripple宣布已經與MSF Africa建立了合作關系,預計將幫助35個國家的客戶簡化實時移動支付。作為協議的一部分,非洲領先的金融科技集團MSF Africa將使用Ripple的加密解決方案,即按需流動性。MSF在非洲大陸擁有800個支付通道,Ripple與MSF合作的進展,將使整個地區有機會獲得“金融包容性利益”。(news.bitcoin)[2022/11/18 13:22:03]

知識獲取的本質就是從這種爆炸性的信息里,去甄別判斷,來提取對我們有用的知識。數據標注就是知識獲取的一個過程,舉個例子,比如說你被蒙上眼睛,讓你看到瓶里是空的還是盛滿水,你會怎么做?一種方式是不用把面罩揭開,把手伸到桶里試一下,這個是一種嘗試的方法,另外一種方式是我往里面扔一個東西,聽聽發出了什么樣的聲音,就能感覺到里面應該是有東西的,是一個推理的方式。還有一種,我也不用做什么,我就詢問一下,向值得信任的人問:這個桶里是有水嗎?對方告知有水,我相信他。

不同的知識的獲取方法,實際上可以對應不同的標注類型。比如需要基于感知,把手伸進去判斷是否有水,這是一個分類標注問題;基于推理的過程需要識別理解篩選歸納,可以對應到實體的標注;比如說我從一句話里面把人名地名結構名標注出來,這是實體的標注;在句子里看到內容進行推理判斷,如這個到底是人名還是地名,這是閱讀理解的標注;還有一個,信任,這個可以對應信息檢索,我們養成了用搜索引擎的習慣,這個也是第三個標注的類別。

人們會問現在的技術這么發達了,當前的手段很先進,有爬蟲和自動抽取自動分類,還需要標注嗎?實際上我們可以靠爬蟲對數據的來源關鍵詞怎么得到的,爬取數據要怎么驗證,剛才也提到了驗證也有開源知識圖譜審核的過程,怎么歸類,怎么表示,還有自動抽取和分類之前的算法訓練數據從哪來,這個是我們現在數據標注存在的非常重要的意義,能夠去支撐前面的這些問題。

數據標注是構建知識庫必須的手段,也是知識獲取的一個基礎和保證,我可以人工標注的結果做算法訓練,通過人工標注進行知識的校驗。

如何進行數據標注?

今天想給大家分享的是從另一個角度來給大家介紹,一個是什么樣的標注服務是專業的。標注的速度快,標注的質量好,這個就是專業嗎?實際上我們覺得不完全是。專業的標注服務是什么樣的呢?

首先服務前建立合理的標注體系;不是用戶提了一個需求以后,就完全按照客戶的需求或者是客戶給的標注說明,原封不動的做這個數據標注,我們會在看數據的過程中會跟客戶商量,不斷的完善標注體系。

之前,我們做過上百個項目,發現實際上在最早建立標注規范的時候,客戶并沒有審查數據,因此在真實的數據場景里,這個標注規范會有千奇百怪覆蓋不到的,為此,我們會跟客戶一同構建標注體系。

其次,標注的原始數據;有一些客戶給我們提供的帶標的數據,其實里面會有一些問題,比如說會有重復的,數據標注是按條計費的,這對客戶來說是損失,包括里面相似的句子比較多,或者說句子里面覆蓋的領域或者行業不太充分,這些我們都會給客戶進行一些建議。

再次,標注服務建立完善的流程,這個流程也非常重要,是質量的一個保證。

最后,為客戶提供強有力的保障;如客戶需要兩天就出標注的結果,從理解規范培訓,前面的整個一大套的流程,就需要兩天完成;當然客戶有各種各樣的需求,因此要給用戶提供一個強有力的保障,我們達到這四點,才認為數據標注是一個專業的。

事實上,不僅僅是服從和服務的過程,我們的標注團隊還希望和客戶構建一個深度信任的合作伙伴的關系,來共同做好這件事情,使得標注出來的數據有價值。

在數據標注過程中有以下幾個環節構成,每個環節都在扮演不同的角色,比如標注師、標注規范、標注系統等等。

有人會問,什么樣的標注師是好的?標注師的學歷分布,背景,這個雖然重要,但不是最重要的。公司里面有300多個比較穩定的兼職標注師。這是我們從兩三千人里經過培訓做任務篩選下來的。專業的標注師一定是熱愛標注行業,同時充分理解用戶需求。

標注流程,標注流程不是固定的,它會根據客戶的或者我們的任務場景需求不斷的去變化,如果比較繁雜的數據,我們可能會先給他一個聚類的環節,給他聚成堆,比如軍事領域聚在一起,有一些標注人員比較擅長理解這個領域的這些數據,我們就給他分配這樣的標注師。比如說項目進度比較緊張,像剛才那么一大堆的流程,可能至少有一周的時間,我們需要根據客戶的需求來簡化流程,保障進度。

除此之外,標注規范也是比較一個需要關注的節點。這是一個必須要經過反復驗證的過程,之前客戶給我們一個規范半頁紙,在我們做完的時候標注規范已經寫了三十多頁了。因此標注規范是標注過程中不斷去完善的。標注規范要保證它的全面,也要保證標注效果。

還有一個就是標注規范的呈現形式,客戶給我們的往往都是實際上是技術人員寫的,比如說算法工程師寫的,如果讓不懂算法的人去看的時候,就會非常的麻煩,所以我們在里面還會有一個過程,就是原始規范的改寫,我們會把標注規范呈現的方式,讓標注師更容易理解。因此,在整個標注服務過程中,我們專業的標注規范,要有明確的標注內容,標注時候的規律,基本的處理原則,還有一些注意事項,所以這些都要在規范里把它都表述的非常清楚,而且要用通俗易懂的語言來描述出來。

接著是標注系統,知識圖譜構建的工具,我們這個標注系統實際上之前也開放過。標注系統可以完成各種標注任務的,當前標注系統支持圖象的二倍拉框,語音轉文字的標注,還有文本方面的標注,如實體的標注,關系標注,事件的標注,包括分類,類型的標注,問句的意圖標注,包括對話的生成等等。

標注系統實際上是為了提高我們標注效率的,這個系統的構建實際上就是需要減少標注人員在系統外的操作,會根據任務在標注系統里嵌很多,比如嵌入搜索結果,從百度搜索還有各種搜索引擎的結果,幫助標注師去理解概念,提高標注的效率和一致性,這些都會在標注系統里進行考慮。

標注過程一定是不斷的反饋更新培訓和淘汰的過程,單純的一次質檢是保證不了質量的,所以在整個的標注服務過程中,構建了四重機制,比如說質量的把控,抽檢,埋雷,多人標注,數據安全的機制,應急的預案,包括人員預留,突發事故的應急組等等,另外,我們還會有一些考慮,包括過程的控制,比如說規范的適用性,規范的確認改寫,包括培訓測試,包括狀態項目進度的監控,包括反饋機制,包括實施過程等方面,總之,通過各種機制,我們來保證標注的質量。

EpiK?Protocol?銘識協議

EpiKProtocol致力于去中心化的超大規模知識圖譜構建,通過去中心化存儲技術、去中心化自治組織和通證經濟模型,組織并激勵全球社區成員將人類各領域知識梳理成知識圖譜,共建共享并持續更新這一人類永恒知識庫,從而將人工智能(AI)的視野拓展到更智能的未來。

通證名稱:EPK

EPIK官網?:

https://www.epik-protocol.io/

EPIK白皮書?:

https://www.epik-protocol.io/EPIK-whitepaper-cn.pdf

EPIK經濟白皮書:

https://www.epik-protocol.io/EPIK-whitepaper-economy-cn.pdf

EPIKGitHub:

https://github.com/EpiK-Protocol

EPIK電報群:

https://t.me/EpikProtocol

來源:金色財經

Tags:EPIKSHISHIBPROEPIK價格SHIBAY幣KSHIB價格Yield Protocol

TRX
NFT:子晗說幣:比特幣價格處于分水嶺 日內多空均有機會_BlockMesh

  比特幣在本周初大跌后開始反彈,最高反彈到周初的起跌位置,隨后開啟了高位寬幅震蕩,日線圖上昨天收出一個大陰柱,今天開盤延續昨天的跌勢,最低跌至前天的開盤價附近,目前重新回到36000上方.

1900/1/1 0:00:00
比特幣:玩幣王子-1.17比特幣以太坊行情解析策略_LABS

人生多一份挫折,就多一份人生的感悟,人生多一次跌打,就多一條抗爭的經驗。午夜好,幣圈投資朋友們!比特幣午夜應該如何操作-----????從下午18點的行情走勢圖來看,比特幣出現了震蕩上行結構,并.

1900/1/1 0:00:00
PAN:115比特幣晚間的行情走勢是否如近期的走勢再去深度回踩_cetus幣前景

長長的路,慢慢地走,喧囂市場中,誰都不是振臂一呼的英雄,無法改變市場節奏就得學著適應,都說萬事開頭難,然而過程難,后面更難,但是依然堅信的是勝者永不言棄,棄者永不得勝.

1900/1/1 0:00:00
NCE:IPFS與HTTP是新舊網絡之間的橋梁_Binance dog

IPFS與HTTP,是新舊網絡之間的橋梁。通過一個HTTP網關,IPFS可以實現從HTTP到IPFS的過渡,在瀏覽器完全支持IPFS之前,現在已經允許當前的Web瀏覽器訪問IPFS.

1900/1/1 0:00:00
TWEE:實戰解析幣圈:1-17 以太坊多空布局 完美獲利178個點位 就問你心動不心動 跟上節奏_apenft幣的未來價值

前言: ???一個人能走多遠,要看他有誰同行;一個人有多優秀,要看他有誰指點;一個人有多成功,要看他有誰相伴.

1900/1/1 0:00:00
MEM:廖鑫晨:1月16日行情企穩之后的短線應當如何操作?_Meme Lordz

  廖鑫晨:1月16日行情企穩之后的短線應當如何操作?  這個圖是下午鑫晨在公眾號里面就發過了,行情已經出出了下跌,但是在K線上,廖鑫晨等到現在行情終于重新穩住了.

1900/1/1 0:00:00
ads