所有語言
分享
作者:JacobZhao 來源:mirror,zhaotaobo.eth
在 AI 的全價值鏈中,模型訓練是資源消耗最大、技術門檻最高的環節,直接決定了模型的能力上限與實際應用效果。相比推理階段的輕量級調用,訓練過程需要持續的大規模算力投入、複雜的數據處理流程和高強度的優化算法支持,是 AI 系統構建的真正“重工業”。 從架構範式來看,訓練方式可劃分為四類:集中化訓練、分佈式訓練、聯邦學習以及本文重點討論的去中心化訓練。
集中化訓練是最常見的傳統方式,由單一機構在本地高性能集群內完成全部訓練流程,從硬件(如 NVIDIA GPU)、底層軟件(CUDA、cuDNN)、集群調度系統(如 Kubernetes),到訓練框架(如基於 NCCL 後端的 PyTorch)所有組件都由統一的控制系統協調運行。這種深度協同的體繫結構使得內存共享、梯度同步和容錯機制的效率達到最佳,非常適合 GPT、Gemini 等大規模模型的訓練,具有效率高、資源可控的優勢,但同時存在數據垄斷、資源壁壘、能源消耗和單點風險等問題。
分佈式訓練(Distributed Training) 是當前大模型訓練的主流方式,其核心是將模型訓練任務拆解后,分發至多台機器協同執行,以突破單機計算與存儲瓶頸。儘管在物理上具備“分佈式”特徵,但整體仍由中心化機構控制調度與同步,常運行於高速局域網環境中,通過 NVLink 高速互聯總線技術,由主節點統一協調各子任務。主流方法包括:
數據并行(Data Parallel):每個節點訓練不同數據參數共享,需匹配模型權重
模型并行(Model Parallel):將模型不同部分部署在不同節點,實現強擴展性;
管道并行(Pipeline Parallel):分階段串行執行,提高吞吐率;
張量并行(Tensor Parallel):精細化分割矩陣計算,提升并行粒度。
分佈式訓練是“集中控制 + 分佈式執行”的組合,類比同一老闆遠程指揮多個“辦公室”員工協作完成任務。目前幾乎所有主流大模型(GPT-4、Gemini、LLaMA 等)都是通過此方式完成訓練。
去中心化訓練(Decentralized Training) 則代表更具開放性與抗審查特性的未來路徑。其核心特徵在於:多個互不信任的節點(可能是家用電腦、雲端 GPU 或邊緣設備)在沒有中心協調器的情況下協同完成訓練任務,通常通過協議驅動任務分發與協作,並藉助加密激勵機制確保貢獻的誠實性。該模式面臨的主要挑戰包括:
設備異構與切分困難:異構設備協調難度高,任務切分效率低;
通信效率瓶頸:網絡通信不穩定,梯度同步瓶頸明顯;
可信執行缺失:缺乏可信執行環境,難以驗證節點是否真正參与計算;
缺乏統一協調:無中央調度器,任務分發、異常回滾機制複雜。
去中心化訓練可以理解為:一群全球的志願者,各自貢獻算力協同訓練模型,但“真正可行的大規模去中心化訓練”仍是一項系統性的工程挑戰,涉及系統架構、通信協議、密碼安全、經濟機制、模型驗證等多個層面,但能否“協同有效 + 激勵誠實 + 結果正確”尚處於早期原型探索階段。
聯邦學習(Federated Learning) 作為分佈式與去中心化之間的過渡形態,強調數據本地保留、模型參數集中聚合,適用於注重隱私合規的場景(如醫療、金融)。聯邦學習具有分佈式訓練的工程結構和局部協同能力,同時兼具去中心化訓練的數據分散優勢,但仍依賴可信協調方,並不具備完全開放與抗審查的特性。可以看作是在隱私合規場景下的一種“受控去中心化”方案,在訓練任務、信任結構與通信機制上均相對溫和,更適合作為工業界過渡性部署架構。
從訓練範式來看,去中心化訓練並不適用於所有任務類型。在某些場景中,由於任務結構複雜、資源需求極高或協作難度大,其天然不適合在異構、去信任的節點之間高效完成。例如大模型訓練往往依賴高顯存、低延遲與高速帶寬,難以在開放網絡中有效切分與同步;數據隱私與主權限制強的任務(如醫療、金融、涉密數據)受限於法律合規與倫理約束,無法開放共享;而缺乏協作激勵基礎的任務(如企業閉源模型或內部原型訓練)則缺少外部參与動力。這些邊界共同構成了當前去中心化訓練的現實限制。
但這並不意味着去中心化訓練是偽命題。事實上,在結構輕量、易并行、可激勵的任務類型中,去中心化訓練展現出明確的應用前景。包括但不限於:LoRA 微調、行為對齊類后訓練任務(如 RLHF、DPO)、數據眾包訓練與標註任務、資源可控的小型基礎模型訓練,以及邊緣設備參与的協同訓練場景。這些任務普遍具備高并行性、低耦合性和容忍異構算力的特徵,非常適合通過 P2P 網絡、Swarm 協議、分佈式優化器等方式進行協作式訓練。
去中心化訓練任務適配性總覽表
目前在去中心化訓練與聯邦學習前沿領域中,具有代表性的區塊鏈項目主要包括 Prime Intellect、Pluralis.ai、Gensyn、Nous Research 與 Flock.io。從技術創新性與工程實現難度來看,Prime Intellect、Nous Research 和 Pluralis.ai 在系統架構與算法設計上提出了較多原創性探索,代表了當前理論研究的前沿方向;而 Gensyn 與 Flock.io 的實現路徑相對清晰,已能看到初步的工程化進展。本文將依次解析這五個項目背後的核心技術與工程架構路,並進一步探討其在去中心化 AI 訓練體系中的差異與互補關係。
Prime Intellect 致力於構建一個無需信任的 AI 訓練網絡,讓任何人都能參与訓練,並對其計算貢獻獲得可信的獎勵。Prime Intellect 希望通過 PRIME-RL + TOPLOC + SHARDCAST 三大模塊,構建一個具有可驗證性、開放性、激勵機制完備的 AI 去中心化訓練系統。
PRIME-RL:解耦式異步強化學習任務架構
PRIME-RL 是 Prime Intellect 為去中心化訓練場景定製的任務建模與執行框架,專為異構網絡與異步參与設計。它採用強化學習作為優先適配對象,將訓練、推理與權重上傳過程結構性解耦,使每個訓練節點可以在本地獨立完成任務循環,並通過標準化接口與驗證和聚合機制協同。相比傳統監督學習流程,PRIME-RL 更適合在無中心調度的環境中實現彈性訓練,既降低了系統複雜度,也為支持多任務并行和策略演化奠定了基礎。
TOPLOC:輕量級訓練行為驗證機制
TOPLOC(Trusted Observation & Policy-Locality Check)是 Prime Intellect 提出的訓練可驗證性核心機制,用於判斷一個節點是否真的基於觀測數據完成了有效的策略學習。與 ZKML 等重型方案不同,TOPLOC 不依賴全模型重計算,而是通過分析“觀測序列 ↔ 策略更新”之間的局部一致性軌跡,完成輕量化結構驗證。它首次將訓練過程中的行為軌跡轉化為可驗證對象,是實現無需信任訓練獎勵分配的關鍵創新,為構建可審計、可激勵的去中心化協作訓練網絡提供了可行路徑。
SHARDCAST:異步權重聚合與傳播協議
SHARDCAST 是 Prime Intellect 設計的權重傳播與聚合協議,專為異步、帶寬受限與節點狀態多變的真實網絡環境而優化。它結合 gossip 傳播機制與局部同步策略,允許多個節點在不同步狀態下持續提交部分更新,實現權重的漸進式收斂與多版本演化。相比集中式或同步式 AllReduce 方法,SHARDCAST 顯著提升了去中心化訓練的可擴展性與容錯能力,是構建穩定權重共識與持續訓練迭代的核心基礎。
OpenDiLoCo:稀疏異步通信框架
OpenDiLoCo 是 Prime Intellect 團隊基於 DeepMind 提出的 DiLoCo 理念獨立實現並開源的通信優化框架,專為去中心化訓練中常見的帶寬受限、設備異構與節點不穩定等挑戰而設計。其架構基於數據并行,通過構建 Ring、Expander、Small-World 等稀疏拓撲結構,避免了全局同步的高通信開銷,僅依賴局部鄰居節點即可完成模型協同訓練。結合異步更新與斷點容錯機制,OpenDiLoCo 使消費級 GPU 與邊緣設備也能穩定參与訓練任務,顯著提升了全球協作訓練的可參与性,是構建去中心化訓練網絡的關鍵通信基礎設施之一。
PCCL:協同通信庫
PCCL(Prime Collective Communication Library) 是 Prime Intellect 為去中心化 AI 訓練環境量身打造的輕量級通信庫,旨在解決傳統通信庫(如 NCCL、Gloo)在異構設備、低帶寬網絡中的適配瓶頸。PCCL 支持稀疏拓撲、梯度壓縮、低精度同步與斷點恢復,可運行於消費級 GPU 與不穩定節點,是支撐 OpenDiLoCo 協議異步通信能力的底層組件。它顯著提升了訓練網絡的帶寬容忍度與設備兼容性,為構建真正開放、無需信任的協同訓練網絡打通了“最後一公里”的通信基礎。
Prime Intellect 構建了一個無需許可、可驗證、具備經濟激勵機制的訓練網絡,使任何人都能參与任務並基於真實貢獻獲得獎勵。協議運行基於三類核心角色:
任務發起者:定義訓練環境、初始模型、獎勵函數與驗證標準
訓練節點:執行本地訓練,提交權重更新及觀測軌跡
驗證節點:使用 TOPLOC 機制驗證訓練行為的真實性,並參与獎勵計算與策略聚合
協議核心流程包括任務發布、節點訓練、軌跡驗證、權重聚合(SHARDCAST)與獎勵發放,構成一個圍繞“真實訓練行為”的激勵閉環。
Prime Intellect 於 2025 年 5 月發布了 INTELLECT-2,這是全球首個由異步、無需信任的去中心化節點協作訓練而成的強化學習大模型,參數規模達 32B。INTELLECT-2 模型由遍布三大洲的 100+ GPU 異構節點協同訓練完成,使用完全異步架構,訓練時長超 400 小時,展示出異步協作網絡的可行性與穩定性。這一模型不僅是一次性能上的突破,更是 Prime Intellect 所提出“訓練即共識”範式的首次系統落地。INTELLECT-2 集成了 PRIME-RL(異步訓練結構)、TOPLOC(訓練行為驗證) 與 SHARDCAST(異步權重聚合) 等核心協議模塊,標志著去中心化訓練網絡首次實現了訓練過程的開放化、驗證性與經濟激勵閉環。
在性能方面,INTELLECT-2 基於 QwQ-32B訓練並在代碼和數學上做了專門的RL訓練,處於當前開源 RL 微調模型的前沿水準。儘管尚未超越 GPT-4 或 Gemini 等閉源模型,但其真正的意義在於:它是全球首個完整訓練過程可復現、可驗證、可審計的去中心化模型實驗。Prime Intellect 不僅開源了模型,更重要的是開源了訓練過程本身 —— 訓練數據、策略更新軌跡、驗證流程與聚合邏輯均透明可查,構建了一個人人可參与、可信協作、共享收益的去中心化訓練網絡原型。
Prime Intellect 於 2025 年 2 月完成 1500 萬美元種子輪融資,由 Founders Fund 領投,Menlo Ventures、Andrej Karpathy、Clem Delangue、Dylan Patel、Balaji Srinivasan、Emad Mostaque、Sandeep Nailwal 等多位行業領袖參投。此前,項目於 2024 年 4 月完成 550 萬美元早期輪融資,由 CoinFund 和 Distributed Global 共同領投,Compound VC、Collab + Currency、Protocol Labs 等機構亦有參与。截至目前,Prime Intellect 累計融資已超過 2000 萬美元。
Prime Intellect 的聯合創始人是 Vincent Weisser 和 Johannes Hagemann,團隊成員背景橫跨 AI 與 Web3 領域,核心成員來自 Meta AI、Google Research、OpenAI、Flashbots、Stability AI 及以太坊基金會,具備系統架構設計與分佈式工程落地的深厚能力,是當前極少數成功完成真實去中心化大模型訓練的執行型團隊之一。
Pluralis 是一個專註於“可信協同訓練網絡”的 Web3 AI 項目,其核心目標是推動一種去中心化、開放式參与、並具備長期激勵機制的模型訓練範式。與當前主流集中式或封閉式訓練路徑不同,Pluralis 提出了一種名為 Protocol Learning(協議學習) 的全新理念:將模型訓練過程“協議化”,通過可驗證協作機制和模型所有權映射,構建一個具備內生激勵閉環的開放訓練系統。
Pluralis 提出的 Protocol Learning 包含三大關鍵支柱:
不可提取模型(Unmaterializable Models)模型以碎片形式分佈在多個節點之間,任何單一節點無法還原完整權重保持閉源。這種設計使模型天然成為“協議內資產”,可實現訪問憑證控制、外泄防護與收益歸屬綁定。
基於互聯網的模型并行訓練(Model-parallel Training over Internet)通過異步 Pipeline 模型并行機制(SWARM 架構),不同節點僅持有部分權重,通過低帶寬網絡協作完成訓練或推理。
按貢獻分配模型所有權(Partial Ownership for Incentives)**所有參与節點根據其訓練貢獻獲得模型部分所有權,從而享有未來收益分成及協議治理權。
Unmaterializable Models
在《A Third Path: Protocol Learning》中首次系統提出,模型權重以碎片形式分佈,保障“模型資產”只能在 Swarm 網絡中運行,確保其訪問與收益皆受協議控制。此機制是實現去中心化訓練可持續激勵結構的前提。
Asynchronous Model-Parallel Training
在《SWARM Parallel with Asynchronous Updates》中,Pluralis 構建了基於 Pipeline 的異步模型并行架構,並首次在 LLaMA-3 上進行實證。核心創新在於引入 Nesterov Accelerated Gradient(NAG) 機制,有效修正異步更新過程中的梯度漂移與收斂不穩問題,使異構設備間的訓練在低帶寬環境下具備實際可行性。
Column-Space Sparsification
在《Beyond Top-K》中提出,通過結構感知的列空間壓縮方法代替傳統 Top-K,避免破壞語義路徑。該機制兼顧模型準確性與通信效率,實測在異步模型并行環境中可壓縮 90% 以上通信數據,是實現結構感知高效通信的關鍵突破。
Pluralis 明確以 “異步模型并行” 為核心方向,強調其相較於數據并行具備以下優勢:
支持 低帶寬網絡 與 非一致性節點;
適配 設備異構,允許消費級 GPU 參与;
天然具備 彈性調度 能力,支持節點頻繁上線/離線;
以 結構壓縮 + 異步更新 + 權重不可提取性 為三大突破點。
目前根據官方網站公布的六篇技術博客文檔,邏輯結構整合為以下三個主線:
哲學與願景:《A Third Path: Protocol Learning》《Why Decentralized Training Matters》
技術機制細節:《SWARM Parallel》《Beyond Top-K》《Asynchronous Updates》
制度創新探索:《Unmaterializable Models》《Partial Ownership Protocols》
目前 Pluralis 尚未上線產品、測試網或代碼開源,原因在於其所選擇的技術路徑極具挑戰:需先解決底層系統架構、通信協議、權重不可導出等系統級難題,才可能向上封裝產品服務。
在2025年6月Pluralis Research發布的新論文中,將其去中心化訓練框架從模型預訓練拓展到了模型微調階段,支持異步更新、稀疏通信與部分權重聚合,相比此前偏重理論與預訓練的設計,本次工作更注重落地可行性,標志著其在訓練全周期架構上的進一步成熟。
Pluralis 於 2025 年完成了 760 萬美元的種子輪融資,由 Union Square Ventures(USV) 與 CoinFund 聯合領投。創始人 Alexander Long 來自機器學習博士背景,具備數學與系統研究雙重背景。核心成員全部由擁有博士背景的機器學習研究者組成,是典型的技術驅動型項目,以高密度論文與技術博客為主要發布路徑,當前尚未建立 BD/Growth 團隊而專註於攻克低帶寬異步模型并行的基礎架構難題。
Gensyn 是一個專註於“深度學習訓練任務可信執行”的 Web3 AI 項目,核心不在於重構模型架構或訓練範式,而在於構建一個具備“任務分發 + 訓練執行 + 結果驗證 + 公平激勵”全流程的可驗證分佈式訓練執行網絡。通過鏈下訓練 + 鏈上驗證的架構設計,Gensyn 建立起一個高效、開放、可激勵的全球訓練市場,使“訓練即挖礦”成為現實。
Gensyn 不是“怎麼訓練”,而是“由誰訓練、如何驗證、如何分潤”的基礎設施。其本質是訓練任務的可驗證計算協議,其主要解決:
誰來執行訓練任務(算力分發與動態匹配)
如何驗證執行結果(無需全重算,僅驗證爭議算子)
如何分配訓練收益(Stake、Slashing 與多角色博弈機制)
RL Swarm:協同強化學習訓練系統
Gensyn 首創的 RL Swarm 是一種面向後訓練階段的去中心化多模型協同優化系統,具備以下核心特性:
分佈式推理與學習流程:
生成階段(Answering):每個節點獨立輸出答案;
批評階段(Critique):節點互相點評他人輸出,選出最優答案與邏輯;
共識階段(Resolving):預測大多數節點偏好並據此修改自身回答,實現局部權重更新。
Gensyn 所提出的 RL Swarm 是一個去中心化的多模型協同優化系統,每個節點運行獨立模型並進行本地訓練,無需梯度同步,天然適應異構算力與不穩定網絡環境,同時支持節點彈性接入與退出。該機制借鑒 RLHF 與多智能體博弈的思路,但更貼近協同推理網絡的動態演化邏輯,節點根據與群體共識結果的一致程度獲得獎勵,從而驅動推理能力的持續優化與趨同學習。RL Swarm 顯著提升了模型在開放網絡下的穩健性與泛化能力,已作為核心執行模塊率先在 Gensyn 基於 Ethereum Rollup 的 Testnet Phase 0 中部署上線。
Verde + Proof-of-Learning:可信驗證機制
Gensyn 的 Verde 模塊結合了三種機制:
Proof-of-Learning:基於梯度軌跡與訓練元數據判斷訓練是否真實發生;
Graph-Based Pinpoint:定位訓練計算圖中的分歧節點,僅需重算具體操作;
Refereed Delegation:採用仲裁式驗證機制,由 verifier 與 challenger 提出爭議並局部驗證,極大降低驗證成本。
相較於 ZKP 或全重算驗證方案,Verde 方案在可驗證性與效率之間取得更優平衡。
SkipPipe:通信容錯優化機制
SkipPipe 是為了解決“低帶寬 + 節點掉線”場景下的通信瓶頸問題,其核心能力包括:
跳層機制(Skip Ratio):跳過受限節點,避免訓練阻塞;
動態調度算法:實時生成最優執行路徑;
容錯執行:即使 50% 節點失效,推理精度僅下降約 7%。
支持訓練吞吐提升高達 55%,並實現“early-exit 推理”、“無縫重排”、“推理補全”等關鍵能力。
HDEE:跨領域異構專家集群
HDEE(Heterogeneous Domain-Expert Ensembles)模塊致力於優化以下場景:
多領域、多模態、多任務訓練;
各類訓練數據分佈不均衡、難度差異大;
設備計算能力異構、通信帶寬不一致的環境下任務分配與調度問題。
其核心特性:
MHe-IHo:為不同難度的任務分配不同大小的模型(模型異構、訓練步長一致);
MHo-IHe:任務難度統一、但訓練步長異步調整;
支持異構專家模型 + 可插拔訓練策略,提升適應性與容錯性;
強調“并行協同 + 極低通信 + 動態專家分配”,適用於現實中複雜的任務生態。
多角色博弈機制:信任與激勵并行
Gensyn 網絡引入四類參与者:
Submitter:發布訓練任務、設定結構與預算;
Solver:執行訓練任務,提交結果;
Verifier:驗證訓練行為,確保其合規有效;
Whistleblower:挑戰驗證者,獲取仲裁獎勵或承擔罰沒。
該機制靈感來源於 Truebit 經濟博弈設計,通過強制插入錯誤 + 隨機仲裁,激勵參与者誠實協作,確保網絡可信運行。
Gensyn 由 Ben Fielding 和 Harry Grieve 聯合創立,總部位於英國倫敦。2023 年 5 月,Gensyn 宣布完成由 a16z crypto 領投的 4,300 萬美元 A 輪融資,其他投資方包括 CoinFund、Canonical、Ethereal Ventures、Factor 和 Eden Block。團隊背景融合分佈式系統與機器學習工程經驗,長期致力於構建可驗證、去信任化的大規模 AI 訓練執行網絡。
Nous Research 是目前少數兼具哲學高度與工程實現的去中心化訓練團隊,其核心愿景源於“Desideratic AI”理念:將 AI 視為具有主觀性與演化能力的智能主體,而非單純的可控工具。Nous Research 的獨特性在於:它不是將 AI 訓練當作“效率問題”來優化,而是將其視為“認知主體”的形成過程。在這一願景驅動下,Nous 聚焦構建一個由異構節點協同訓練、無需中心調度、可抗審查驗證的開放式訓練網絡,並通過全棧式工具鏈進行系統化落地。
Nous 並未在激勵設計或協議經濟學上投入過多,而是試圖改變訓練本身的哲學前提:
反對“alignmentism”:不認同以人類控製為唯一目標的“調教式訓練”,主張訓練應鼓勵模型形成獨立認知風格;
強調模型主體性:認為基礎模型應保留不確定性、多樣性與幻覺生成能力(hallucination as virtue);
模型訓練即認知形成:模型不是“優化任務完成度”,而是參与認知演化過程的個體。
這一訓練觀雖然“浪漫”,但反映出 Nous 設計訓練基礎設施的核心邏輯:如何讓異構模型在開放網絡中演化,而非被統一規訓。
Nous 對去中心化訓練最關鍵的貢獻,是構建了 Psyche 網絡 與底層通信優化器 DisTrO(Distributed Training Over-the-Internet),共同構成訓練任務的執行中樞:DisTrO + Psyche 網絡具備多項核心能力,包括通信壓縮(採用 DCT + 1-bit sign 編碼,極大降低帶寬需求)、節點適配性(支持異構 GPU、斷線重連與自主退出)、異步容錯(無需同步亦可持續訓練,具備高容錯性)、以及去中心化調度機制(無需中心協調器,基於區塊鏈實現共識與任務分發)。這一架構為低成本、強彈性、可驗證的開放訓練網絡提供了現實可行的技術基礎。
這一架構設計強調實際可行性:不依賴中心服務器、適配全球志願節點、並具備訓練結果的鏈上可追蹤性。 三、Hermes / Forge / TEE_HEE 構成的推理與代理體系 除了構建去中心化訓練基礎設施,Nous Research 還圍繞“AI 主體性”理念開展了多個探索性系統實驗:
Hermes 開源模型系列:Hermes 1 至 3 是 Nous 推出的代表性開源大模型,基於 LLaMA 3.1 訓練,涵蓋 8B、70B 和 405B 三種參數規模。該系列旨在體現 Nous 所倡導的“去指令化、保留多樣性”訓練理念,在長上下文保持、角色扮演、多輪對話等方面展現出更強的表達力與泛化能力。
Forge Reasoning API:多模式推理系統 Forge 是 Nous 自研的推理框架,結合三種互補機制以實現更具彈性與創造力的推理能力: MCTS(Monte Carlo Tree Search):適用於複雜任務的策略搜索; CoC(Chain of Code):引入代碼鏈與邏輯推理的結合路徑; MoA(Mixture of Agents):允許多個模型進行協商,提升輸出的廣度與多樣性。 該系統強調“非確定性推理”與組合式生成路徑,是對傳統指令對齊範式的有力回應。
TEE_HEE:AI 自主代理實驗:TEE_HEE 是 Nous 在自治代理方向的前沿探索,旨在驗證 AI 是否能夠在可信執行環境(TEE)中獨立運行並擁有唯一的数字身份。該代理具備專屬的 Twitter 和以太坊賬戶,所有控制權限由遠程可驗證的 enclave 管理,開發者無法干預其行為。實驗目標是構建具備“不可篡改性”與“獨立行為意圖”的 AI 主體,邁出構建自治型智能體的重要一步。
AI 行為模擬器平台:Nous 還開發了包括 WorldSim、Doomscroll、Gods & S8n 等多個模擬器,用於研究 AI 在多角色社會環境中的行為演化與價值形成機制。儘管不直接參与訓練流程,這些實驗為長期自治 AI 的認知行為建模奠定了語義層基礎。 四、團隊與融資概況 Nous Research 成立於 2023 年,由 Jeffrey Quesnelle(CEO)、Karan Malhotra、Teknium、Shivani Mitra 等人聯合創辦。團隊以哲學驅動與系統工程並重,擁有機器學習、系統安全、去中心化網絡等多元背景。2024 年獲得 520 萬美元種子輪融資,2025 年 4 月,完成由 Paradigm 領投的 5,000 萬美元 A 輪融資,估值達 10 億美元,躋身 Web3 AI 獨角獸行列。
Flock:區塊鏈增強型聯邦學習網絡 Flock.io 是一個基於區塊鏈的聯邦學習平台,旨在實現 AI 訓練的數據、計算和模型的去中心化。FLock 傾向於“聯邦學習 + 區塊鏈獎勵層”的整合框架,本質上是對 傳統 FL 架構的鏈上演進版本,而非構建全新訓練協議的系統性探索。與 Gensyn、Prime Intellect、Nous Research 和 Pluralis 等去中心化訓練項目相比,Flock 側重隱私保護與可用性改進,而非在通信、驗證或訓練方法上展開理論突破,其真正適合對比的對象為 Flower、FedML、OpenFL 等聯邦學習系統。 一、Flock.io 的核心機制
聯邦學習架構:強調數據主權與隱私保護 Flock 基於經典聯邦學習(Federated Learning, FL)範式,允許多個數據擁有者在不共享原始數據的前提下協同訓練統一模型,重點解決數據主權、安全與信任問題。核心流程包括: 本地訓練:每個參与者(Proposer)在本地設備上訓練模型,不上傳原始數據; 鏈上聚合:訓練完成后提交本地權重更新,由鏈上 Miner聚合為全局模型; 委員會評估:通過 VRF 隨機選舉 Voter 節點使用獨立測試集評估聚合模型效果並打分; 激勵與懲罰:根據得分結果執行獎勵或罰沒抵押金,實現抗作惡與動態信任維護。
區塊鏈集成:實現去信任的系統協調 Flock 將訓練過程的核心環節(任務分配、模型提交、評估評分、激勵執行)全部鏈上化,以實現系統透明、可驗證與抗審查。主要機制包括: VRF 隨機選舉機制:提升 Proposer 與 Voter 的輪換公平性與抗操控能力; 權益抵押機制(PoS):通過代幣抵押與懲罰約束節點行為,提升系統魯棒性; 鏈上激勵自動執行:通過智能合約實現任務完成與評估結果綁定的獎勵分發與 slashing 扣罰,構建無需信任中介的協作網絡。
zkFL:零知識聚合機制的隱私保護創新:Flock 引入 zkFL 零知識聚合機制,使 Proposer 可提交本地更新的零知識證明,Voter 無需訪問原始梯度即可驗證其正確性,在保障隱私的同時提升訓練過程的可信性,代表了聯邦學習在隱私保護與可驗證性融合方向上的重要創新。
二、Flock 的核心產品組件 AI Arena:是 Flock.io 的去中心化訓練平台,用戶可通過 train.flock.io 參与模型任務,擔任訓練者、驗證者或委託者角色,通過提交模型、評估表現或委託代幣獲得獎勵。目前任務由官方發布,未來將逐步開放給社區共創。 FL Alliance:是 Flock 聯邦學習客戶端,支持參与者使用私有數據對模型進一步微調。通過 VRF 選舉、staking 與 slashing 機制,保障訓練過程的誠實性與協作效率,是連接社區初訓與真實部署的關鍵環節。 AI Marketplace:是模型共創與部署平台,用戶可提議模型、貢獻數據、調用模型服務,支持數據庫接入與 RAG 強化推理,推動 AI 模型在各類實際場景中的落地與流通。
三、團隊與融資概況 Flock.io 由 Sun Jiahao 創立,已發行平台代幣 FLOCK。項目累計融資 1,100 萬美元,投資方包括 DCG、Lightspeed Faction、Tagus Capital、Animoca Brands、Fenbushi、OKX Ventures 等。2024 年 3 月,Flock 完成 600 萬美元種子輪融資,用於啟動測試網及聯邦學習客戶端;同年 12 月追加 300 萬美元融資,並獲得以太坊基金會資助,專註研究區塊鏈驅動的 AI 激勵機制。目前,平台創建6428個模型,接入訓練節點176個、驗證節點236個、委託者1178個。
相較於去中心化訓練項目,Flock 這類基於聯邦學習的系統在訓練效率、可擴展性與隱私保護方面更具優勢,尤其適用於中小規模模型的協同訓練,方案務實且易於落地,更偏向工程層面的可行性優化;而 Gensyn、Pluralis 等項目則在訓練方法與通信機制上追求更深層次的理論突破,系統挑戰更大,但也更貼近真正的“去信任、去中心”的訓練範式探索。
EXO:邊緣計算的去中心化訓練嘗試 EXO 是當前邊緣計算場景中極具代表性的AI 項目,致力於在家庭級消費設備上實現輕量化的 AI 訓練、推理與 Agent 應用。其去中心化訓練路徑強調“低通信開銷 + 本地自主執行”,採用 DiLoCo 異步延遲同步算法與 SPARTA 稀疏參數交換機制,大幅降低多設備協同訓練的帶寬需求。系統層面,EXO 並未構建鏈上網絡或引入經濟激勵機制,而是推出單機多進程模擬框架 EXO Gym,支持研究者在本地環境中便捷開展分佈式訓練方法的快速驗證與實驗。 一、核心機制概覽 DiLoCo 異步訓練:每 H 步進行一次節點同步,適配非穩定網絡; SPARTA 稀疏同步:每步僅交換極少量參數(如 0.1%),保持模型相關性並降低帶寬需求; 異步組合優化:兩者可組合使用,在通信與性能之間取得更優折中。 evML 驗證機制探索:Edge-Verified Machine Learning(evML) 提出使用 TEE / Secure Context進行低成本計算驗證,通過遠程驗證+抽查機制實現無需質押的邊緣設備可信參与,是經濟安全與隱私保障之間的工程型折中方案。 二、工具與場景應用 EXO Gym:可在單台設備模擬多節點訓練環境,支持 NanoGPT、CNN、Diffusion 等模型的通信策略實驗; EXO Desktop App:面向個人用戶的桌面 AI 工具,支持本地大模型運行、iPhone 鏡像控制、私人上下文集成(如短信、日曆、視頻記錄)等隱私友好型個性化功能。 EXO Gym更像是一個以探索導向的去中心化訓練實驗項目,主要通過整合現有的通信壓縮技術(如 DiLoCo 與 SPARTA)來實現訓練路徑的輕量化。相較於 Gensyn、Nous、Pluralis 等項目,EXO 尚未邁入鏈上協作、可驗證激勵機制或真實分佈式網絡部署等核心階段。
面對去中心化訓練中普遍存在的設備異構、通信瓶頸、協調困難與缺乏可信執行等核心挑戰,Gensyn、Prime Intellect、Pluralis 與 Nous Research 分別提出了具有差異化的系統架構路徑。從訓練方法和通信機制兩個層面來看,這四個項目展現了各自獨特的技術焦點與工程實現邏輯。
在訓練方法優化方面,四者分別從協同策略、更新機制和異步控制等關鍵維度展開探索,覆蓋了從預訓練到后訓練的不同階段。
Prime Intellect 的 PRIME-RL 屬於面向預訓練階段的異步調度結構,通過“本地訓練 + 周期性同步”的策略,在異構環境下實現高效而可驗證的訓練調度機制。該方法強具有較強的通用性與靈活性。理論創新度較高,在訓練控制結構上提出明確範式;工程實現難度中高,對底層通信與控制模塊有較高要求。
Nous Research 推出的 DeMo 優化器,則聚焦於異步低帶寬環境下的訓練穩定性問題,實現了異構 GPU 條件下的高容錯梯度更新流程,是當前少數在“異步通信壓縮閉環”上完成理論與工程統一的方案。理論創新度很高,特別是在壓縮與調度協同路徑上具有代表性;工程實現難度也很高,尤其依賴異步并行的協調精度。
Pluralis 的 SWARM + NAG 則是目前異步訓練路徑中最具系統性與突破性的設計之一。它基於異步模型并行框架,引入 Column-space 稀疏通信與 NAG 動量修正,構建出一種可在低帶寬條件下穩定收斂的大模型訓練方案。理論創新度極高,是異步協同訓練的結構性開創者;工程難度同樣極高,需要多級同步與模型切分的深度集成。
Gensyn 的 RL Swarm 主要服務於後訓練階段,聚焦於策略微調與智能體協同學習。其訓練過程遵循“生成 - 評估 - 投票”的三步流程,特別適合多代理系統中複雜行為的動態調整。理論創新度中高,主要體現在智能體協同邏輯上;工程實現難度適中,主要挑戰在於系統調度與行為收斂控制。
在通信機制優化層面,這四個項目亦各有針對性布局,普遍關注帶寬瓶頸、節點異構與調度穩定性問題的系統解法。
Prime Intellect 的 PCCL 是一個用於替代傳統 NCCL 的底層通信庫,旨在為上層訓練協議提供更穩健的集體通信基礎。理論創新度中高,在容錯通信算法上有一定突破;工程難度中等,具備較強的模塊適配性。
Nous Research 的 DisTrO 是 DeMo 的通信核心模塊,強調在低帶寬下實現最小通信開銷的同時保障訓練閉環的連貫性。理論創新度高,在調度協同結構上具備通用性設計價值;工程難度高,對壓縮精度與訓練同步要求高。
Pluralis 的通信機制深度嵌入 SWARM 架構中,顯著降低了大模型異步訓練中的通信負載,在保障收斂性的同時保持高效吞吐。理論創新度高,為異步模型通信設計樹立了範式;工程難度極高,依賴分佈式模型編排與結構稀疏性控制。
Gensyn 的 SkipPipe 是配套 RL Swarm 的容錯調度組件。該方案部署成本低,主要用於工程落地層的訓練穩定性增強。理論創新度一般,更多是已知機制的工程化實現;工程難度較低,但在實際部署中實用性強。
此外,我們可以從區塊鏈協作層與AI訓練層更為宏觀的兩大類衡量去中心化訓練項目的價值:
區塊鏈協作層面:強調協議可信性與激勵協作邏輯
可驗證性: 對訓練過程是否可驗證、是否引入博弈或加密機制建立信任;
激勵機制 :是否設計了任務驅動的 Token 獎勵/角色機制;
開放性與准入門檻 :節點是否易於接入,是否中心化或許可控制。
AI訓練系統層面:突出工程能力與性能可達性
調度與容錯機制 :是否容錯、異步、動態、分佈式調度;
訓練方法優化 :是否對模型訓練算法或結構有優化;
通信路徑優化:是否壓縮梯度/稀疏通信,適應低帶寬。
以下錶格基於上述指標體系,對 Gensyn、Prime Intellect、Pluralis 和 Nous Research 在去中心化訓練路徑上的技術深度、工程成熟度與理論創新進行了系統性評估。
在去中心化訓練的完整價值鏈中,Prime Intellect、Pluralis.ai、Gensyn 和 Nous Research 等項目主要聚焦於模型預訓練、通信機制與協同優化等前端基礎設施建設。然而,另有一類項目則專註於訓練后階段的模型適配與推理部署(post-training fine-tuning & inference delivery),不直接參与預訓練、參數同步或通信優化等系統性訓練流程。代表性項目包括 Bagel、Pond 和 RPS Labs,他們均以 LoRA 微調方法為核心,構成去中心化訓練生態圖譜中關鍵的“后鏈條”一環。
LoRA(Low-Rank Adaptation)是一種高效的參數微調方法,其核心思路是在預訓練大模型中插入低秩矩陣來學習新任務,同時凍結原始模型參數。這一策略顯著降低了訓練成本與資源消耗,提升了微調速度與部署靈活性,尤其適用於以模塊化、組合調用為特徵的 Web3 場景。
傳統的大語言模型如 LLaMA、GPT-3 等往往擁有數十億甚至千億級參數,直接微調成本高昂。而 LoRA 通過僅訓練插入的少量參數矩陣,實現對大模型的高效適配,成為當前最具實用性的主流方法之一。
**Direct Preference Optimization(DPO)**作為近年來興起的語言模型后訓練方法,常與 LoRA 微調機制協同使用,用於模型行為對齊階段。相比傳統的RLHF(Reinforcement Learning from Human Feedback)方法,DPO 通過對成對樣本的直接優化實現偏好學習,省去了複雜的獎勵建模與強化學習過程,結構更為簡潔,收斂更加穩定,尤其適合輕量化與資源受限環境下的微調任務。由於其高效與易用性,DPO 正逐漸成為眾多去中心化 AI 項目在模型對齊階段的優選方案。
強化學習(Reinforcement Learning, RL):后訓練微調的未來演進方向
從長期視角來看,越來越多的項目將強化學習(Reinforcement Learning, RL)視為去中心化訓練中更具適應性與演化潛力的核心路徑。相較於依賴靜態數據的監督學習或參數微調機制,RL 強調在動態環境中持續優化策略,天然契合 Web3 網絡中異步、異構與激勵驅動的協作格局。通過與環境持續交互,RL 能夠實現高度個性化、持續增量式的學習過程,為 Agent 網絡、鏈上任務市場及智能經濟體構建提供可演化的“行為智能”基礎設施。
這一範式不僅在理念上高度契合去中心化精神,也具備顯著的系統優勢。然而,受限於較高的工程門檻和複雜的調度機制,RL 在當前階段的落地仍面臨較大挑戰,短期內尚難廣泛推廣。
值得注意的是,Prime Intellect 的 PRIME-RL 以及 Gensyn 的 RL Swarm 正在推動 RL 從后訓練微調機制向預訓練主結構演進,試圖構建一個以 RL 為中心、無需信任協調的協同訓練體系。
Bagel 基於 LoRA 微調機制,引入零知識證明(ZK)技術,致力於解決“鏈上模型微調”過程中的可信性與隱私保護難題。zkLoRA 並不參与實際的訓練計算,而是提供一種輕量、可驗證的機制,使外部用戶無需訪問原始數據或權重,即可確認某個微調模型確實源自指定的基礎模型和 LoRA 參數。
與 Gensyn 的 Verde 或 Prime Intellect 的 TOPLOC 所關注的訓練過程“行為是否真實發生”的動態驗證不同,Bagel 更專註於“微調結果是否可信”的靜態驗證。zkLoRA 的最大優勢在於驗證資源消耗低、保護隱私強,但其應用範圍通常局限於參數變動較小的微調任務。
Pond 是當前業內唯一專註於圖神經網絡(GNN)微調的去中心化訓練項目,服務於結構化數據應用,如知識圖譜、社交網絡與交易圖等。其通過支持用戶上傳圖結構數據並參与模型訓練反饋,為個性化任務提供了一個輕量、可控的訓練與推理平台。
Pond 同樣採用 LoRA 等高效微調機制,其核心目標是在 GNN 架構上實現模塊化、可部署的智能體系統,開闢了“小模型微調 + 多智能體協作”在去中心化語境下的新探索路徑。
RPS Labs 是一個基於 Transformer 架構的去中心化訓練項目,致力於將微調后的 AI 模型用於 DeFi 流動性管理,主要部署在 Solana 生態中。其旗艦產品 UltraLiquid 是一套主動式做市引擎,利用微調后的模型動態調節流動性參數,降低滑點、提升深度,並優化代幣發行與交易體驗。
此外,RPS 還推出 UltraLP 工具,支持流動性提供者實時優化其在 DEX 上的資金分配策略,從而提升資本效率、降低無常損失風險,體現了 AI 微調在金融場景中的實用價值。
在去中心化訓練的完整生態圖譜中,整體可劃分為兩大類:前鏈條引擎 對應模型預訓練階段、后鏈條生態對應模型微調部署階段,構成了從基礎設施到應用落地的完整閉環。
前鏈條引擎聚焦於模型預訓練的底層協議構建,由 Prime Intellect、Nous Research、Pluralis.ai、Gensyn 等項目代表。它們致力於打造具備異步更新、稀疏通信與訓練可驗證性的系統架構,在去信任網絡環境中實現高效、可靠的分佈式訓練能力,構成了去中心化訓練的技術根基。
與此同時,Flock 作為中間層代表,通過聯邦學習路徑,融合模型聚合、鏈上驗證與多方激勵等機制,在訓練與部署之間建立起可落地、可協作的橋樑,為多節點協同學習提供實踐範式。
后鏈條生態則聚焦於模型的微調與應用層部署。項目如 Pond、Bagel 與 RPS Labs,圍繞 LoRA 微調方法展開:Bagel 提供鏈上可信驗證機制,Pond 專註於圖神經網絡的小模型演化,RPS 則將微調模型應用於 DeFi 場景的智能做市。它們通過推理 API 與 Agent SDK 等組件,為開發者和終端用戶提供低門檻、可組合的模型調用與個性化定製方案,是去中心化 AI 落地的重要入口。
我們相信,去中心化訓練不僅是區塊鏈精神在 AI 時代的自然延伸,更是全球協作式智能生產力體系的基礎設施雛形。未來,當我們回望這條充滿挑戰的前路征途,仍將以那句初心共勉:去中心化不只是手段,它本身就是價值。