派客國際投資有限公司??蘇文杰
摘要:本文分析了大額BTC和USDT轉賬對瀑布行情的影響。在此過程中使用了近鄰傳播聚類算法對大額轉賬數據進行分類,并根據各類簇的具體情況給出了其對應的威脅水平。
短時間內,行情大幅上漲或下跌的現象被稱作瀑布行情。例如,1分鐘內行情下跌幾百美元,或幾分鐘內上漲一千美元。瀑布行情的出現常常與大額轉賬有關。
本文收集了BTC和USDT的大額轉賬數據,使用了近鄰傳播聚類算法等方法對數據進行了相關分析,嘗試以此角度來構建量化交易策略。
下面先簡要介紹近鄰傳播聚類算法。
一、近鄰傳播聚類算法-
聚類分析
聚類分析是研究物以類聚的一種數理統計方法。聚類分析來自于分類學,在古老分類學里主要依據是經驗以及專業知識。隨著科技的發展,人類認知的深入,有時僅憑經驗和專業知識己經不能滿足分類精細化的要求,單純依靠經驗很難保證分類的準確性。因此研究者將數學應用到古老分類學中,建立了數值分類學。隨著多元統計分析知識的引入,聚類分析又逐漸從數值分類學內分離出來,成為一個重要的研究分支。
聚類分析本質是研究分類問題。根據歸屬類別的差異,可將聚類劃分成硬聚類和軟聚類,硬聚類是指各個對象被分到唯一的一個類簇中,軟聚類則指各個對象以一定程度屬于各個類簇,本文討論的是硬聚類。
聚類分析作為一種無監督學習方法,是在沒有相關背景知識的情況下,通過某種相似性度量,將數據集合并成不同的類簇,使得被分到同一類簇的元素相似程度較高,而不同類簇的元素相似程度較低,從而找到數據的分布結構以及數據屬性間的關系。聚類分析一直是機器學習、數據挖掘、模式識別等領域的一個重要、活躍的研究方向。
常見聚類算法的分類
1、基于層次的聚類算法
層次聚類算法又稱作“系統聚類算法”,它有凝聚算法與分裂算法兩類。凝聚算法初始時將每個樣本點視為單獨的一個類簇,接著合并相似度較高的樣本點,符合終止條件時合并停止,確定最終劃分;分裂算法初始時將所有對象看作一類,再逐步細分,達到終止條件時停止分裂。
IDA首批數字藝術品上線當日認購金額最大額度突破千萬:7月30日,由中民華彩、搜云科技聯合主辦的中國民族文化數字文庫—金主數字藝術品登記服務平臺發布會在北京成功舉辦。據了解,首批數字藝術品上線當日,認購金額最大額度突破千萬元 。
IDA是通過將藝術品實物與數字所有權憑證分離的方式,藏家可將藝術品委托專業機構保管,只需持有的數字藝術品所有權憑證即可實現權屬轉讓。目前首批作品選用的是榮寶齋限量仿真復制十大當代名家書畫作品。[2021/8/2 1:29:18]
考慮到大規模數據集的問題,有許多改進的層次聚類算法被提出,如CURE、BIRCH、ROCK等。
2、基于密度的聚類算法
基于密度的聚類算法選取樣本點的密度作為相似性度量準則,首先考察樣本點在等范圍區域內的分布密度,再合并鄰近且密度較大的區域,最后得到若干個密度比較高的區域構成的類簇。
3、基于網格的聚類算法
基于網格的聚類算法首先將聚類對象分成若干個網格單元,再統計網格單元里的密度信息,最后將相鄰的高密度網格單元合并為一類。
4、基于劃分的聚類算法
劃分型聚類算法首先將數據集劃分為k類,每個劃分表示一個聚類簇,然后運用迭代法更新劃分,滿足終止條件時停止迭代。目前在各領域廣為使用的K-means、K-medoids聚類算法均是基于劃分的聚類算法。
2007年,BrendanJ.Frey和DelbertDueck首次提出了屬于劃分型聚類方法的近鄰傳播聚類算法。
5、基于模型的聚類算法
基于模型的聚類算法為每一個類簇假定一個模型,尋找這些模型與數據集的最佳匹配。這類聚類算法不僅可以獲得數據集的類簇劃分,還可得到到各類簇相應的特征描述,通常有概率模型和神經網絡模型兩類。常用的有高斯混合模型(GMM)、自組織映射(SOM)算法。
聚類算法的特點
動態 | ETC鏈上大額轉賬數目激增:據Tokenview數據顯示,近24小時ETC鏈上單筆金額超過10000 ETC的大額轉賬為106筆,為近120天以來的最高值。而上一次ETC鏈上出現大額交易數峰值是今年的4月7日,當日ETC漲幅亦超過25%。鏈上大額轉賬筆數激增與市場表現有較強的關聯性,但峰值過后往往市場表現往往所有回落。[2019/8/23]
1、常用聚類算法的特點
各聚類算法基于不同的聚類思想,其特點不盡相同:對于BIRCH算法、CURE算法等在內的基于層次的聚類算法,其實現雖然較為簡單,但一旦某步聚類完成,將不可撤銷,同時對大數據聚類時的時間耗費較大,需要進行預聚類或采樣以減少時間耗費;基于密度的聚類能夠有效地過濾“噪聲”數據,可對含有復雜形狀類簇的數據進行聚類,但其在計算區域密度時耗費時間較長,而且在界定稠密區和稀疏區上較為困難,對參數較為敏感,多數情況下應用于具有低維度任意形狀的類簇聚類問題;基于網格的聚類算法,時間復雜度、精度均與量化的空間單元數目有關,如何確定合適網格的大小較為困難;基于模型的聚類算法一般需要針對某種具體數據集建立具體的模型,對模型參數取值較為敏感,算法的泛化能力較差,例如SOM算法就對初始權重、學習率以及鄰域半徑的選擇較為敏感;基于劃分的聚類算法如K-means、K-medoids等計算復雜度較低、收斂速度快,目前在工業生產等方面應用較為廣泛,但存在以下問題:
基于對象之間的距離進行聚類,傾向于發現大小相近的凸形簇,而在發現任意大小、形狀的類簇上比較困難;
一般需要指定聚類個數,不能完全再現數據本身的結構信息;
需要指定初始聚類中心,算法最終的聚類結果對初始中心的選擇較敏感,容易陷入局部最優;
需要多次調整聚類個數、聚類初始中心,以獲得較優的聚類結果,使得在處理大規模和復雜數據的聚類問題上,獲得較好聚類結果的時間復雜度增大。
2、近鄰傳播聚類算法的特點
動態 | BTC出現價值約4076萬美元大額轉賬:北京時間6月4日2時45分左右,1MZg5DQk開頭地址向13Wgvpgi開頭地址轉賬4793.43枚BTC,價值約4076萬美元。交易哈希為:acc0ac2de44779dbea82cb5452f11a10cc4dbf2b7bea83e685c213f0bfb8183a。[2019/6/4]
近鄰傳播聚類算法基于因子圖理論構造聚類網絡模型,將所有樣本點看作潛在的聚類代表點,作為網絡中的節點。通過節點間的信息傳遞,每個點不斷累積自己作為代表點的證據,最終找到合適的代表點,得到最優的類代表集合使得網絡相似度最大,完成聚類。
與傳統聚類算法相比,近鄰傳播聚類算法無需指定初始聚類中心,有效地解決了常用聚類算法中初始聚類中心的選取問題,適用范圍更廣,同時因子圖中信息傳播技術的引入使得它的計算效率更高。
為了滿足不同的應用需求,相應的基于它的改進和擴展型算法也被大量提出。
近鄰傳播聚類算法簡介
1、距離函數
在聚類分析中,空間相似性計算模型最為常用。而空間關系一般由空間距離來刻畫。
除此之外,常用的還用馬氏距離、閔可夫斯基距離、曼哈頓距離、切比雪夫距離。可根據實際情況選用距離函數。
2、相似度矩陣S的構造
近鄰傳播聚類算法是基于數據間的相似度矩陣S來聚類的。傳統的近鄰傳播聚類算法使用負的歐式距離的平方作為度量相似度的方法,即
3、偏向參數P的設定
矩陣S的對角線上的元素s(k,k)稱為偏向參數P,表示數據點k作為類代表點的合適程度。近鄰傳播聚類算法中將每個點的偏向參數P設為一樣的值,通常選取所有對偶點相似度的中值,即初始時假設所有點成為類代表的可能程度相同。通常,P越大表示更多的點傾向于成為類代表點,故類簇的個數越多,反之類簇的個數越少。故該算法能夠通過變換P值來獲得合適的聚類數。由于消息傳遞過程由相似度s(i,k)和P值同時決定,所以聚類數目與P不是嚴格的線性關系。
動態 | USDT出現一筆大額轉賬:2019年1月6日中午12點37分USDT出現一筆大額轉賬,轉出金額30666888.0USDT(約合3066萬美元) 轉出地址為:1pYbaaWDhezjBkXBHEUqTHCc6DbefSZiK,交易哈希值為:dd91ec4723a90e5d8db4516e5d8046a52201484bb9f3ef94f8fca3ecd27a34ee,區塊高度為557247。[2019/1/6]
4、吸引度矩陣R和歸屬度矩陣A
吸引度矩陣R
歸屬度矩陣A
5、決策矩陣
圖1
二、數據獲取和統計
利用程序獲取自北京時間2019-08-1516:28至2019-08-2111:34時的較大額的轉賬數據,隨后,BTC行情迅速下跌約300美元,以當時的期貨永續合約行情為例:
圖2
這里只分析流入和流出交易所的數據。為了便于比較,將BTC和USDT均換算為USD,由于在數據收集期間兩者價值的波動不大,因此將它們換算為USD后能夠大致了解資金流入和流出的情況。下表列出了數據的統計情況:
表1
為了方便觀察,將上表繪圖如下:
圖3
進一步地,我們還可以更細致地觀察流入交易所的BTC的情況,將其繪圖如下:
圖4
三、大額BTC和USDT轉賬的聚類分析
???流入交易所的大額BTC和USDT轉賬可能對行情產生重要的影響,下面將著重對其進行分析。
數據分布情況
將流入交易所的較大的BTC和USDT轉賬繪圖如下。其中藍色點為BTC轉賬,紅色點為USDT轉賬,橫坐標為北京時間的時間戳,縱坐標為轉賬額度:
圖5
動態 | BCH發生大額轉賬:據Chaindigg數據,今日凌晨0:53左右,1CSWUp開頭的地址向18pvgM開頭的地址轉入約10950枚BCH。交易哈希值為3ec860d2d8e5b1285747ca8dad0465d24cf4d3a0760c9adafb857825095ff72f。[2018/9/26]
但實際上我們只關心大額轉賬數據,將轉賬額度限定為300萬美元及以上,篩選后可得
圖6
對大額BTC和USDT轉賬進行聚類分析
單獨的個別轉賬能夠造成的影響可能較小,我們主要考慮多個轉賬的協同活動。多個轉賬可能是為了在期貨和現貨上統一部署,完成一系列操作并獲利。
在使用近鄰傳播聚類算法時,假設以如下兩點作為聚類的原則:
1、時間上相差不大于一天的多個轉賬可能是協同的,有較大概率是同一個莊家/大戶想要影響行情,或不同的莊家/大戶想要一同影響行情;
2、資金大致為同一個量級的多個轉賬可能是協同的,也有較大概率是同一個莊家/大戶想要影響行情,或不同的莊家/大戶想要一同影響行情。
同時滿足以上兩點的轉賬有較大概率會成為同一類簇。
為了滿足以上兩個聚類的原則,我們需要根據實際情況改進傳統近鄰傳播聚類算法,即使用新定義的距離公式來計算相似度矩陣,由此可得聚類結果:
圖7
由上圖可知,大額BTC和USDT轉賬被分為了5類。下面將分別給出各類簇對行情的威脅程度,以“威脅水平”來表示。
四、大額BTC和USDT轉賬各類簇的威脅水平
我們借鑒了態勢估計和基于屬性分析的威脅評估思想來確定大額轉賬各類簇的威脅水平的評定。
態勢估計-
兩伊戰爭時美海軍指控系統偶有異常便造成災難性的后果。尤其是USSSTARK及USSVINCENNES兩次事件中指揮官對目標威脅的誤判,促使美軍軍事思想發生變革,提出態勢估計的概念,目的是為了減少由于目標誤判引起與友方或中立方的戰損。目前對態勢估計(situationassessment,SA)的認識尚不統一,比較權威的是美國國防部聯合領導實驗室數據融合小組提出的數據融合處理模型,明確地將態勢和威脅估計作為2級和3級融合處理的內容:將來自許多傳感器和信息源的數據和信息加以聯合、相關和組合以獲得精確的位置估計和身份估計,以完成對戰場態勢和威脅及其重要程度進行實時、完整評價的處理過程。
屬性分析是指對威脅評估過程中的屬性進行分析以獲得對屬性的深入理解,并以此指導威脅評估過程。由于屬性貫穿于威脅評估的全過程,因而包括:屬性的來源及選擇、屬性的重要性度量、屬性與威脅排序的關系以及屬性的使用等。
下面以戰場上一個簡單的情況為例:
1、敵軍步兵部隊抵達我軍陣地前方,此時有可能對我軍發起進攻;
2、一段時間后,敵軍炮兵部隊抵達,步炮協同的情況使得其發起進攻的可能性大幅增加,威脅程度進一步增大;
3、一段時間后,敵軍裝甲部隊抵達,因此極有可能馬上發起進攻,具有很強的威脅性。
下面將借鑒以上的思路來提供一個判定大額轉賬各類簇威脅水平的方案。
大額轉賬各類簇的威脅水平
分析轉賬數據,可知某些大額轉賬是從某交易所轉至相同交易所/不同交易所,這時雖然交易所的總體流入情況不變,但這里依然將其視作可操作資金,納入到威脅水平的判定中。可選用以下方案判定大額轉賬各類簇的威脅水平:
1、等級0
若無大額轉賬數據,或只有單個大額轉賬但其價值小于閾值V,則令其為等級0。
2、等級1:
若只有單個大額轉賬,且其價值大于閾值V,則令其為等級1;
若某類簇只有BTC轉賬,或只有USDT轉賬時,BTC轉入現貨交易所可能是為了砸盤,轉入期貨交易所則不易判斷其操作方向,而USDT轉入現貨交易所可能是為了拉盤,此時令該類簇為等級1。
3、等級2
當某類簇中BTC和USDT轉賬均存在時,令該類簇為等級2。
此時莊家/大戶可能在現貨和期貨上同時進行操作。例如在現貨上先拉盤獲取籌碼,等待散戶繼續拉升后,砸盤再買回籌碼,同時在期貨上進行相應建倉以獲利。
需要指出的是,獲取籌碼和砸盤之后再買回籌碼的過程也可通過OTC交易完成,這樣對行情不會產生影響,而這就不在我們的數據監控范圍之中了。
4、等級3
經過一段較平穩的行情后,若某類簇的最后一個數據的時間與北京時間相差在t1小時至t2小時之間(t1在這種情況下,莊家/大戶可能正在期貨上建倉,大量的掛單使得行情無法劇烈波動,經過t1小時后應該已經建倉完畢了,故威脅程度進一步增加。而若超出t2小時仍沒有發生瀑布行情,則表明此類簇的形成可能只是巧合,故取消本次威脅水平增加的級別。
5、多個類簇下威脅水平的評定
上文闡述了針對單個類簇如何評定其威脅水平。
在多個類簇同時存在時,可統計各類簇的資金量大小,若資金量相差較大,則可選用資金量最大的類簇的威脅水平來代表整體;若資金量相差不大,為了謹慎起見,可取各類簇中威脅水平最大的等級來代表整體。
如圖7所示,本輪收集的大額BTC和USDT轉賬被分為了5個類簇,其中某類簇的威脅水平已達到了等級3,故可用等級3來代表其整體的威脅水平。
五、結論與討論
本文分析了大額BTC和USDT轉賬對瀑布行情的影響。在此過程中使用近鄰傳播聚類算法對轉賬數據進行了分類,并提供了一個判定各類簇威脅水平的方案。當其整體威脅水平達到等級2時,部分量化程序應進入保守模式,當威脅水平達到等級3時,部分量化程序可暫停運行。在出現瀑布行情后,可認為之前的大額轉賬的效果已被體現,可將數據全部清除,獲取新的大額轉賬數據并進行分析,為下一次瀑布行情的到來做好準備。
盡管在處理多數聚類相關問題上,近鄰傳播聚類算法具有明顯的優勢,但其仍存在一些問題和局限性,例如:1、偏向參數的選擇問題;2、震蕩問題,當震蕩發生后算法不能自動消除震蕩并收斂;3、復雜的混合分布和非球狀數據簇聚類問題,處理這類數據簇聚類問題時算法還有待進一步完善,等等。目前,人們已針對其提出了較多的改進和擴展型算法,這里就不再贅述了。除此之外,對于大額轉賬數據還有許多細節值得去挖掘,這有待今后對其進行更加深入的討論。
參考文獻
唐丹.改進的近鄰傳播聚類算法及其應用研究.南京理工大學碩士學位論文,2016.1-12
李萍.AffinityPropagation聚類算法的改進及其應用研究.浙江大學碩士學位論文,2017.2-21
霍龍杰.AffinityPropagation聚類算法的研究及應用.東南大學碩士學位論文,2012.20-24
BrendanJ.Frey,DelbertDueck.ClusteringbyPassingMessagesBetweenDataPoints.Science,2007,315(5814):973
韓占朋,王玉惠,程聰.態勢估計方法研究綜述.航空兵器,2013,(1):14
王猛,章新華,夏志軍.基于屬性分析的威脅評估技術研究.系統工程與電子技術,2005,27(5):849
李永新.基于屬性識別理論的網絡威脅評估方法.計算機應用,2009,29(4):956
北京時間8月23日下午2點23分,加密貨幣市場出現了極其詭異的一幕,部分山寨幣市值突然猛增,其中ZRX在短時間內甚至超過了BTC.
1900/1/1 0:00:00尊敬的LOEx用戶: LOEx交易所即將首發上線XKY,并開放XKY/USDT的交易對,具體時間如下:LOEx于新加坡時間8月26日14:39開放XKY充提幣業務.
1900/1/1 0:00:00今年到目前為止,比特幣的牛市行情主要歸因于一些全球最大的科技公司對比特幣和加密貨幣感興趣。自今年1月以來,比特幣價格已上漲約200%.
1900/1/1 0:00:00根據加密貨幣專家的說法,比特幣有希望達到50000美元的歷史最高水平。EdgeNetwork首席執行官兼創始人JosephDenne最近接受Express采訪時表示,我們很可能在未來12-24個.
1900/1/1 0:00:001.Circle旗下支付應用CirclePay解決小額兌現問題將對部分休眠賬戶收取費用據官方推特消息,加密貨幣公司Circle旗下的社交支付應用程序CirclePay已解決小額資金兌現問題.
1900/1/1 0:00:00MinerSummit2019全球礦業領袖峰會將于2019年10月12日在中國成都舉行,此次峰會由洛杉磯礦業媒體MinerUpdate發起,并聯合海內外合作伙伴共同舉辦.
1900/1/1 0:00:00