誰能建立隱私計算的“分散式資料湖”？

作者：由區塊鏈愛好者發表于數碼日期：2021-09-14

在資訊時代裸奔，我們總會被資料挾持、出賣。因為你的資料不屬於你。

時下，是應該聊聊資料和隱私的時候了。

2019年末，我曾把零知識證明、多方計算、可信執行環境等隱私計算技術的代表專案匯聚到一起做了一期極為深度的討論。

那時，在區塊鏈產業分佈裡已經有了隱私賽道，有少數專案在研究、拓展、嘗試，只是對於隱私、隱私計算以及資料等維度並沒有那麼清晰的判斷。

把時間線放的更長一些，從2018年至今，我們其實看到了隱私專案向隱私計算的迭代（兩個技術標籤很早就存在，但行業關注點有了迭代），這一現象代表了一些技術的發展和應用的趨向性。

在對這些專案分析解構，對市場需求進行考證後，筆者認為此時該提出一個有效的觀點。

即：當今的區塊鏈隱私計算專案裡，誰想拿下隱私計算第一槍，要率先建立隱私計算的“分散式資料湖”。

原因很簡單：資料儲存在資料庫裡並不能直接產生價值，只有經過資料訓練才有價值，也就是資料要有為深度學習、聯邦學習服務的能力，而資料湖是這個路徑裡的必然選項，基於去中心化模型裡，會出現新的“分散式資料湖”。

本文裡，我會為這個名詞開個腦洞，在符合邏輯推演的範圍內為大家闡述一個框架。但這種模型目前並未有非常成熟的案例，如有偏頗，歡迎各位指證。

先談一談什麼叫資料湖

資料湖的概念，來自大資料和機器學習業務。

我們日常一定聽過資料庫，資料庫的形式可大可小，是非常獨立的資料儲存單位，每個資料儲存位置都是一個數據庫，當資料庫之間被打通，形成一個大資料互動結構，就可以理解為資料湖的形象。

筆者在亞馬遜的AWS Lake Formation服務定義裡查到了資料湖的名詞定義：

資料湖是一個安全的集中式輔助儲存庫，它以資料原始形式和可用於分析的形式儲存所有資料。利用資料湖，可以分解資料孤島並組合不同型別進行分析，獲得分析結果指導更好的業務決策。

所以我們可以理解為，當若干個原始儲存的資料庫連線起來，就是資料湖。但這個資料湖怎麼工作呢？

這一段描述可以粗略看到一些工作需求。

“設定和管理資料湖包括載入來自不同來源的資料、監控這些資料流、設定分割槽、開啟加密和管理金鑰、定義轉換作業並監控其操作、將資料重新組織成列格式、配置訪問控制設定、刪除冗餘資料重複資料、匹配連結記錄、授予對資料集的訪問許可權以及隨時間推移稽核訪問許可權。”

所以資料湖的主要功能是資料的互動，而處理其關鍵問題是加密和資料集的訪問許可權。在我們所期待的去中心化資料湖裡，似乎也是如此。

再談一談我們期待的去中心化資料結構

去中心化的資料結構，是去中心化的隱私計算的基礎，很簡單，就是資料是分散在生產者處，存在於我們的手機、電腦其他終端裝置裡。

當然，手機資料大多是有快取的，有些資料是短時儲存，我們所看到的那些網際網路App收取使用者的資料，都是其所需要的資料，而這些資料有些實時產生，在快取裡，有些儲存在本地儲存裡。我們雖然在本地可以操作檢視，但平臺也可以隨時拿走資料，因為所有權並非在使用者這裡。

在去中心化的資料結構裡，資料在本地儲存，還需要把所有資料加密，並且你所使用的App無法獲取你的資料，除非你主動向App提供互動，或者允許授權。

這個場景裡，我們期待的是：平臺在沒有授權時是拿不走我們的資料的。但這僅代表的是成型的儲存資料。而我們有很多的資料，是需要經過中心化伺服器處理的。

例如加入一個社交媒體，我們的使用者名稱，手機號，郵箱等等資料都是容易暴露的，理想狀態下，他人對我們選擇不公開的資料不可見，而關鍵的是，平臺也要對資料不可見，或者不可用。

這需要平臺具備一些基本的功能，而平臺的功能，一定是其背後開發功能中的體現，這就有關於我們知道的區塊鏈專案了，例如賬戶ID具備隱私功能，資訊訪問許可權的設定。

我們看到保護隱私的區塊鏈專案，都會在這方面努力。

不過區塊鏈和加密貨幣有一些天然隱私特性，例如區塊鏈的歸屬權、加密貨幣的無需許可以及地址的匿名性。

只是當資料真的形成一定的體量之後，大部分的業務都與生活息息相關，所以匿名性之後會有kyc，kyc後，資料的隱私和隱私計算，無可厚非的成為最重要組成部分。

區塊鏈世界裡，誰能建立資料湖？

網際網路大資料技術早已和雲計算融合多年，在傳統雲計算裡，AI需求的資料湖對資料的控制已經變得很簡單，進展到了SaaS級別。

例如上文的AWS Lake Formation其建立過程很簡單，只需定義資料來源，制定要應用的資料訪問和安全策略就行。Lake Formation模組會幫助使用方從資料庫和物件儲存中收集並按目錄分類資料，將資料移動到新的資料湖裡，使用機器學習演算法清理和分類資料，並保護對敏感資料的訪問許可權。

而對外表象是，使用方建立應用的使用者可以訪問那些描述了可用資料集及其適當用法的集中資料目錄。然後，使用者可以透過所選的分析和機器學習服務，利用這些資料集。

簡而言之，這個邏輯把分佈在各處的資料，最終在資料服務上體現了價值，這是去中心化世界裡，很多專案想要實現的，如果只是簡單的把資料控制在使用者手裡，那使用者仍只是體驗了平臺的服務，而並非將資料可以變現，雖然說資料token化就可能有交易價值，但這種交易價值暴力程度遠不及在人工智慧裡實現的產業價值。

例如，如果微信去中心化了，我們在微信的行為資料就再也不會直接拿走被利用到廣點通裡，你的朋友圈裡不會出現“你剛剛和其他人說過的”你想買的物品，也不會被粗暴的推薦某些產品。

區塊鏈專案想實現這樣的願景，但發展之路可能略有曲折。因為這樣的應用很難實現。

我們看到的區塊鏈專案，除了Defi、Nft這些應用層專案，其他都是基礎設施，而以區塊鏈的基礎設施，效能很難完成網際網路平臺的業務需求。

當隨著區塊鏈以及加密貨幣不斷擴充套件，網路中的使用者增加，每個地址的關聯資料也開始增加，所有使用者的資料集中呈現了龐大的規模。這些存在本地的資料，就也組成了龐大的資料叢集。

在這基礎之上，能實現資料湖的，並不多。因為實現資料湖，需要單獨的算力、儲存、演算法等等。在區塊鏈專案的設計裡，這個部分可能需要單獨的一層網路，或某一個參與網路建設的角色。

大部分割槽塊鏈專案並不能建立這樣的功能，因為大部分割槽塊鏈專案的網路只有能力維持Defi專案的執行，而缺乏足夠的儲存和計算能力。

除儲存和算力外，在這基礎設施裡，需要有去中心化的資料結構，例如以DID為單位的使用者資料，需要有算力和儲存的經濟模型，還需要有安全的程式碼和便於開發應用的中介軟體。

這些都讓隱私計算的專案屈指可數。

當然我們這樣判定的前提，是我們所指的隱私計算，是關於資料的隱私處理。而並非簡單透過合約執行的匿名、混幣、交易隱私等等。

在交易處理分層的概念已經在加密貨幣專案設計裡得到共識後，我們期待的是區塊鏈負責資料的權益證明，而其他層控制的算力和儲存，完成隱私計算。

定義一個可實時的框架

在文章的最後，我們用資料湖的最終命題，去推論出一個加密貨幣隱私專案的設計框架。透過這個框架，可以部分對比如今市面上的隱私計算專案。

首先，區塊鏈為加密貨幣專案提供共識層的總帳本。在這個總帳本里，是所有公開留存的資料證明。

接下來，是如何將專案設計為具備隱私計算能力。

從初代的隱私專案看，主要是增加了匿名性和交易隱私，例如具備混幣合約的隱私幣，其可以將合約當作一種dapp服務，讓代幣進入合約之後的操作無法查詢。這樣的設計，主要是在鏈上部署合約，可能會使用密碼學演算法或者零知識證明等標誌性技術，以保證交易過程在不可見的情況下正確執行。

而如果是有硬體要求的隱私計算設計，那在前文我們所提到的區塊鏈網路，其網路節點搭建，就需要特殊的裝置，或者在區塊鏈共識層外，再次搭建一個由特殊裝置組成的計算網路。

例如透過集合具備TEE計算區的硬體裝置連線成網，就可以利用TEE保護區塊鏈上的交易執行、合約執行等，TEE是對計算進行的物理保護，有一些獨特的通訊方式，讓可信計算區和其他需求點互動。

而如果區塊鏈網路具備MPC等對計算要求較高的技術部署，就需要搭建區塊鏈網路的節點裝置經過特殊定製，或者在區塊鏈共識層外，建立一個layer2計算、儲存層，將算力和儲存都共享出去，提供資料隱私計算需要的資源。

有趣的是，因為MPC很多情況下還是依靠加密演算法，為了更周密的隱私部署，MPC和TEE會在非區塊鏈的可信案例裡組合應用比較多，而MPC在區塊鏈專案裡，與零知識證明、加密演算法融合應用比較多。

當我們確認了有足夠的算力和儲存資源。

一旦需要資料湖，如AWS資料湖模組一樣，需要建立資料湖，並且定向收集需求點位的資料，彙集後，對資料所有權進行分類，在資料湖裡，除了資料所有權外，進行機器學習訓練的訓練方，資料執行方等都需要明確對資料湖的許可權，例如訓練方可能具備管理訓練演算法的許可權，而其對部分資料是可用不可見。

資料最終的價值表現，與資料在訓練等過程中的作用也需要在資料湖的作用中進行評估。而這些輔助的計算都是基本功能，資料在資料湖的進進出出都會在區塊鏈上留下公開的痕跡，以保證所有權的公平。

最後，當技術上完善之後，就是資料變現後的權益分配，需要對資料貢獻進行定義，可能需要通證化的量化工作來實現公平的分配。

以上的參與者，理想狀態下，是很多方。而將這個模型放小，可能只會關於如今具備資料交叉訓練需求的幾方。

因為大部分資料的處理難度也是顯而易見的，例如資料的清洗、篩選、脫敏等等。

但如果這種模型已經成為標配，必然會有一個標配的經濟模型支援，例如這些資源的消耗需要需求者買單。而資料的訓練結果，可能將塑造下一個驚豔的產品。

如果我們只是因為自由選擇區塊鏈網路，那你也許會因為產品體驗的不自由而離開，但如果你希望可以透過資料塑造價值，那必然要等待你的資料可以因為隱私計算變得有價值，並且這個價值可以迴歸於你自己。

那個時候使用者才不會因為資料成為待宰羔羊，因為你可以對不認可的授權者say no，拿好你的個人資料庫。

標籤：資料區塊隱私儲存計算

誰能建立隱私計算的“分散式資料湖”？

相關文章