轉自:以太坊愛好者
作者:曾汨
本文為?Geth客戶端有問必答系列的第一篇文章,大家可以就Geth客戶端的問題踴躍提問,我會每周用一篇小文章回答得票最高的問題。本周呼聲最高的問題是:你能說說flat數據庫結構與legacy結構的主要區別嗎?
以太坊的狀態
在深入了解加速結構之前,我們先回顧一下以太坊的“狀態”概念、在涉及到不同層次的抽象時又是如何存儲的。
以太坊有兩種不同類型的狀態:賬戶的集合;每一合約賬戶存儲槽的集合。從?完全抽象的角度?來看,兩種數據都是鍵-值對。賬戶集合把地址映射到該地址的nonce、余額,等等。而一個合約的存儲領域把任意的值映射到某個值。
但糟糕的是,雖然把這些鍵值對存儲成扁平數據可以非常高效,但驗證它們的正確性在計算上就會變得很難。每當對數據修改時,我們都要自下而上對所有數據做哈希運算。
為免去總是對整個數據庫做哈希運算的需要,我們可以把數據庫分割成連續的小片,然后建立出一種樹狀結構!最原始、最有用的數據就放在葉子節點上,然后樹上每一個內部節點都是該節點以下內容的哈希值。如此一來,當我們要修改某些值時,就只需做對數次的哈希運算。這種數據結構其實有一個路人皆知的名字,就是“默克爾樹”。
但還沒完,這種辦法在計算復雜性上還是有所欠缺。默克爾樹結構雖然在修改現有數據時非常高效,但是,如果插入數據和刪除數據會更改底層小數據塊的邊界,那就會讓所有已經算好的哈希值全都變為無效。
美聯儲威廉姆斯:美聯儲在關注和了解數字貨幣技術:美聯儲威廉姆斯表示,美聯儲在關注和了解數字貨幣技術。(金十)[2021/2/26 17:53:57]
這時候,與其盲目地對數據庫分組,我們可以使用鍵本身來組織數據、基于共同前綴將數據都安排到樹狀格式中!這樣插入和刪除操作都不會影響到所有節點,只會影響到從樹根到葉子路徑上的節點。這種數據結構就叫“帕特里夏樹”。
把上面兩種辦法合在一起——帕特里夏樹的樹狀分層和默克爾樹的哈希算法——就是所謂的“默克爾-帕特里夏樹”,也是實踐中用于代表以太坊狀態的數據結構。無論是修改、插入、刪除還是驗證,都只有對數復雜度!唯一的小小例外是,有些鍵會在插入前做哈希運算,以平衡整棵樹。
以太坊的狀態存儲
上文解釋了為什么以太坊要用默克爾帕特里夏樹結構來存儲其狀態。遺憾的是,雖然所需操作的速度都很快,但每一種選擇都有所犧牲。
更新操作和驗證操作的對數復雜性?意味著對?
每一個單獨的密鑰?的
讀取和存儲都是對數復雜的(
logarithmicreadsandlogarithmicstorage)。這是因為樹狀結構的每一個內部節點都要單獨保存在硬盤上。
此時此刻,賬戶樹的深度確切是多少我不知道,但在大約一年以前,賬戶狀態就已填滿了7層高的樹。這就意味著,每一次樹操作都要觸達至少7~8個內部節點,因此會做至少7~8次持久數據庫訪問。LevelDB組織數據時最多也是7層,所以還有一個額外的乘數。最終的結果是,單次?狀態訪問預計會放大為?25~50次隨機的?硬盤訪問。你再乘上一個區塊中的所有交易的所有狀態讀取和寫入,你會得到一個?嚇人?的數字。
動態 | WTZex交易所回應所謂“王團長被抓”一事:配合粉絲調查 只是正常了解情況:據區塊律動消息,11月9日,WTZex交易所工作人員在社群中回應所謂“王團長被抓”一事:“今天王團長在參加成都活動后協助一個粉絲去配合調查,只是正常了解情況,外面有些人故意造謠傳播,希望謠言止于智者,不要以訛傳訛”。WTZex交易所是區塊鏈自媒體人王團長于2019年所創立的交易所,號稱全球最大會員制交易所。據11月9日在成都參加礦業活動的觀眾表示,同樣參加活動的王團長在活動結束后被疑似便衣警察帶走。[2019/11/10]
可怕之處還在于,這個數字就是運行一個以太坊節點、保證能全時驗證所有狀態的成本。
我們能做得更好一點嗎?
并不是所有訪問都要一視同仁
以太坊的運行依賴于對狀態的密碼學證明。只要我們還想保持對所有數據的驗證能力,就繞不開硬盤讀寫放大問題。也就是說,我們——?
可以并且也事實上?——相信我們已經驗證過的數據。
不斷重復驗證每一個狀態物是沒有意義的,但如果每次從硬盤中拉取數據都要驗證一次的話,就是在做這樣沒有意義的事。默克爾帕特里夏樹結構本質上是為寫入操作設計的,但反過來就成了讀取操作的負擔。我們擺脫不了它,也無法讓它瘦身,但?這絕不意味著?我們在每一個場合都必須使用它。
以太坊節點訪問狀態的場景可大致分為以下三類:
現場 | 王允臻:隱私計算是我到目前為止所了解到的唯一的真正保障數據主權的:在今日隱私計算發展研討會的圓桌討論中,萬向控股CIO王允臻表示,分布式的邏輯,分布式邏輯就要求打通數據孤島。前面有其他的演講者也講的很好,那么數據達不到有行政上的問題,組織關系上的問題,還有更重要的是一個隱私安全保護。就說我現在要讓我的數據被利用,唯一的方法就是把數據開放。你要拿走我的數據,這樣的話你是沒有前途的,怎么來解決這個問題?我所謂的就是美國人說得data sovereignty,就是數據主權,假如說你沒有辦法保證你的數據,你是數據的唯一擁有者的話,談得上什么主權,國家的土地主權不是說這塊土地技術,國家又必須是一個排他性的唯一的,那么這樣一來的話就可以和隱私計算就聯系在一起,因為隱私計算是我到目前為止所了解到的唯一的真正保障數據主權的。[2019/9/17]
在導入一個新區塊的時候,EVM代碼的執行會產生或多或少基本平衡的狀態讀取和寫入次數。不過,一個用于拒絕服務式攻擊的區塊可能會產生遠多于寫入操作的讀取操作次數。
當節點運營者檢索狀態的時候,EVM代碼執行僅產生讀取操作。
當節點在同步區塊鏈的時候,同步者會向遠程節點請求狀態,被請求者會將數據挖掘出來并通過網絡傳播給同步者。
基于上述訪問模式,如果我們可以短路讀取操作而不觸及狀態樹,則許多節點操作都可以變得快?
聲音 | 袁煜明:要以一種開放的心態去接觸和了解區塊鏈:7月21日,火幣研究院院長袁煜明表示:“很多時候很多人其實對區塊鏈現在還不了解,覺得是騙子什么的,這個都沒問題,很少有人在第一次聽到覺得一定要加入進來,這樣的人比較少,往往還需要反復多次驗證的過程,我希望每一個人都要以一種開放的心態去接觸和了解(區塊鏈)......我們應該是睜開眼睛接觸和了解區塊鏈,你花幾個小時買不了吃虧和上當,先了解一下,也許你就會發現區塊鏈有意思,如果發現沒意思,大不了就是花幾個小時,幾天的時間而已。”[2018/7/21]
很多。這樣甚至能開啟一些新奇的訪問模式,讓原來因為太過昂貴而不可行的模式變為可能。
當然,還是不免有所犧牲。沒有去掉樹結構,任何新的加速結構都會帶來額外的開銷。問題只在于:額外的開銷是否能帶來足夠多的好處,值得我們一試?
請循其本
我們已經開發出了神奇的默克爾帕特里夏樹結構來解決我們所有的問題,現在,我們希望讓讀取操作能繞過它。那么,我們應該用什么樣的加速結構來讓讀取操作重新變得快起來呢?顯然,如果我們不需要樹結構,那就大可以把伴隨樹結構而生的復雜性都丟在一邊,我們可以直接回到原始狀態。
如同在本文開頭說到的那樣,理論上的理想狀態下?以太坊狀態的數據存儲方式應是簡單鍵值對,沒了默克爾帕特里夏樹構成的限制,那就沒有什么能阻止我們去實現這種理想方案了!
北航教授伍前紅:區塊鏈監管分了解、監視、發現、建議、重塑五個層次:伍前紅教授表示,區塊鏈監管包括五個層次,不能泛泛說能監管和不能監管。第一個層次是了解,第二個層次是監視,第三個是發現,第四個是建議,第五個是重塑。只有形成這樣一個閉環,我們才能說是一個監管。目前的區塊鏈或者數字貨幣,符合前兩個層次。第一個層次,發現異常。第二個層次,發現證據。發現異常現在的很多能做到,第二個很多區塊鏈或者現有的數字貨幣系統很難發現證據,可以發現異常,但是第二個層次很難做,介入就更難了。而對于最后一個層次重塑,因為不是系統開發者,沒有發言權,就沒有資格或者沒有抓手去重塑它。[2018/3/27]
不久之前,Geth引入了?snapshot加速結構。一個快照就是給定一個區塊處的以太坊狀態的完整視圖。抽象掉實現方面的細節,它就是把所有賬戶和合約存儲槽堆放在一起,都由扁平的鍵值對來表示。
每當我們想要訪問某個賬戶或者某個存儲槽的時候,我們只需付出一次LevelDB的查詢操作即可,而不用在每棵樹上查詢7~8次。理論上來說,更新快照也很簡單,處理完一個區塊后,我們只需為每個要更新的存儲槽多做1次額外的LevelDB寫入操作即可。
快照加速結構實際上將讀取操作的計算復雜性從O(logn)降到了O(1),代價是將寫入操作的計算復雜性從O(logn)變成了O(1+logn),并將硬盤存儲空間從O(nlogn)增加到了O(n+nlogn)。
魔鬼藏在細節中
維持以太坊狀態快照的可用性也不容易。只要區塊還在一個接一個地產生,一個接一個地摞在最后一個區塊上,那將最新變更合并到快照中的粗疏辦法就能正常工作。但是,哪怕有微小的區塊鏈重組,快照機制就崩潰了,因為根本沒有設計撤銷操作。對扁平數據表示模式來說,持久化寫入是單向的操作。而且讓事情變得更糟糕的是,我們沒辦法訪問更老的狀態了。
為了克服這些限制,Geth客戶端的快照由兩部分組成:一部分持久化的硬盤層,是對舊區塊處狀態的完整快照;還有一棵內存內diff層組成的樹,用于收集最新的寫入操作。
處理新區塊的時候,我們不會直接合并這些寫入操作到硬盤層,而僅僅是創建一個新的、包含這些變更的內存內diff層。當內存內部的diff層積累到足夠高的層數時,最底部的一個就開始合并更新并推到硬盤層。當需要讀取一個狀態物時,我們就從最頂端的diff層開始查找,一直往下,直至在diff層中或者在硬盤層中找到。
這種數據表示方法非常強大,解決了很多問題。因為內存內部的diff層組成了一棵樹,所以128個區塊以內的鏈重組只需取出屬于父塊的diff層,然后就此開始構建即可。需要較舊狀態的dApp和遠程同步者可以訪問到最近128個最近的狀態。開銷變成了128次映射查找,但128次內存內的查找比起8次硬盤讀取及LevelDB的4~5倍放大要快上幾個數量級。
當然,這里面還有很多很多的坑。就不講太深了,簡單列舉就有下面這張清單:
Self-destruct特別難以對付,因為它們需要短路diff層的沉降。
如果出現了比持久硬盤層更深的鏈重組,那現在的快照就要完全廢棄掉、重新生成。整套操作非常昂貴。
在節點關機時,內存內的diff層需要持久化到日志并加載備份,不然重啟之后快照就沒用了。
使用最底層的diff層作為一個累加器,僅在其超過一定的內存使用時才刷新到硬盤。這就允許跨區塊對同一存儲槽執行去重寫入操作。
要為硬盤層分配一個讀取緩存,這樣合約重復訪問同一個古老的存儲槽時硬盤才不會損壞。
在內存內diff層中使用累積的布隆過濾器,以便快速檢測出狀態物有沒有可能存在于diff層中,還是應該直接跳到硬盤中查找。
不把原始數據設為鍵,而是以這些數據的哈希值為鍵,以保證快照的迭代順序與默克爾帕特里夏樹相同。
生成持久化硬盤層的時間要比剪除狀態樹窗口的時間多得多,所以即使是生成器,也需要動態地追蹤鏈的運行。
美丑并存
Geth的快照加速結構將狀態讀取的復雜性降低了一個數量級。這就意味著基于讀取操作的DoS攻擊的發動難度上了一個數量級,而?eth_call?調用也快了一個數量級。
快照還讓對最近的塊進行極速狀態迭代成為可能。實際上這曾是我們開發快照機制的主要理由,因為我們可以此為基礎創造新的?snap?同步算法。講清楚它需要一篇全新的文章,但最近我們在Rinkeby測試網上的基準測試很能說明問題:
耗時
上行流量
下載流量
包數量
硬盤讀取量
fast同步
2h34m
4.53GB
11.43GB
357335
2.89TB
snap同步
42m
0.083GB
6.53GB
37347
0.04TB
-63.7%
-98.2%
-43.9%
-90.5%
-98.6%
當然,這一切同樣不是沒有代價的。當初始同步完成之后,參與主網的節點需要9~10小時來建構初始快照,還需要額外的15GB以上的硬盤。
那糟糕的部分是哪里呢?我們花了6個月時間才積累起足夠的自信、發布了快照機制,而且現在它仍然不是默認功能,需要主動使用?--snapshot?標記來開啟,而且還有一些圍繞內存使用和崩潰恢復的打磨工作要做。
總而言之,對于這一提升,我們非常自豪。其中有巨大的工作量,而且是在黑暗中摸索、自己實現所有東西并祈禱它能工作。還有一個有趣的事情,第一個版本的快照同步是在兩年半以前寫的,但一直都處于被阻塞的狀態,因為我們缺乏必要的加速結構來驅動它。
結語
希望你能喜歡?
Geth客戶端有問必答?的這一篇文章。我花了比自己所預想的多出一倍的時間,但我并不后悔,因為這個主題值得。下周見。
Tags:以太坊區塊鏈ETHGETH比特幣最新價格行情以太坊實時行情女生報區塊鏈專業怎么樣啊ethp幣怎么樣togetherbnb倉庫薇拉
本文來自?TheBlock,原文作者:YogitaKhatriOdaily星球日報譯者:念銀思唐支付巨頭PayPal透露,它正在開發加密貨幣相關能力.
1900/1/1 0:00:00“漲了!漲了!” 7月21日,在連續橫盤了的許久之后,比特幣終于有動靜了,久違的突破瞬間點燃了市場的熱情.
1900/1/1 0:00:00編者按:軟件的人機交互、操作邏輯、界面外觀,這些都是用戶衡量一款好用軟件的指標。無論在互聯網還是區塊鏈領域,UI設計都是項目方所需要重視的.
1900/1/1 0:00:007月22日,韓國企劃財政部公開包含加密貨幣征稅方案的“2020年稅法修正案”。今年6月,韓國經濟副總理兼企劃財政部部長洪南基表示,“將把虛擬資產征稅方案寫入7月份公布的稅收修正案”.
1900/1/1 0:00:00八家公司入圍法國央行法蘭西銀行計劃進行的數字貨幣試驗計劃。 聲音 | 埃森哲大中華區企業技術創新事業部總裁:數字化轉型與區塊鏈等技術的發展有強關系:9月10日,埃森哲再度公布《2019中國企業數.
1900/1/1 0:00:00作者|任萬盛 出品|零壹智庫&數字資產研究院據零壹智庫數據顯示,截至2019年末,全球累計有47個國家和地區、5926家公司申請了38064件區塊鏈專利;其中,有3218家公司來自中國.
1900/1/1 0:00:00