CyberVerse：一張照片生出能視訊通話的 AI 角色，但算力與合規風險要自己扛

Facebook Line Messenger Telegram

CyberVerse 是以 GPL-3.0 釋出的開源數位人 Agent 框架（GitHub 上現歸在 Lynpoint 組織名下，原始開發者代號 dsd2077），把大語言模型、語音辨識、語音合成、數位人視訊與 WebRTC 即時串流整合成同一套可自架的系統。餵進一張照片，它就能驅動一個會說話、有口型、能在瀏覽器裡跟你視訊通話的 AI 角色。但開源免費這四個字掩蓋了兩件真正決定你能不能用它的事：跑得動的顯示卡檔次，以及你自己要承擔的肖像與聲音合規責任。

我的判斷是這樣。如果你要做的是客服、教學、無障礙助理這類有正當使用情境的產品原型，CyberVerse 把過去只能按分鐘付費給 HeyGen、D-ID 這類雲端 SaaS 的能力搬進了你自己的伺服器，這是它真正的價值。但如果你手上沒有一張 RTX 5090 或 RTX PRO 6000 等級的顯示卡、沒有處理合成媒體合規的法務餘裕，或單純想找一套裝完就能上線的客服系統，CyberVerse 目前還不是給你用的工具。它此刻比較接近一份給工程師與研究者的技術藍圖，還稱不上能裝完就上線的現成商用方案。

它究竟是聊天機器人套殼，還是真的視訊通話框架

多數 GitHub 上的 AI 助手專案只做文字問答，CyberVerse 最大的不同，是把即時串流當成第一公民。整條互動鏈路長這樣：你上傳一張參考照片產生數位人形象，對著麥克風說話，ASR 把語音轉成文字，LLM 負責思考與答話，TTS 把文字合成為語音，數位人模型根據語音驅動臉部表情與口型，最後透過 WebRTC 把整路音視訊即時推送到你的瀏覽器。你可以在它講話時打斷它，可以在同一輪對話裡混用語音與文字輸入，標準模式下還能把攝影機畫面或螢幕分享餵給它，讓它不只是聽你說話，還能看見你。

架構上有幾個值得拆開來看的地方。

CyberVerse 數位人 Agent 官方架構圖，整合 LLM、ASR、TTS、數位人視訊與 WebRTC 串流的完整管線 — CyberVerse 數位人 Agent 官方架構圖：從照片驅動到 WebRTC 即時視訊的整路管線。

串流底層用 WebRTC，這一點直接決定了它跟一般聊天機器人的距離。CyberVerse 可以走點對點直連，內建 TURN 與 NAT 穿透，也可以切到 LiveKit SFU 模式應付更複雜的網路環境。這個選擇直接影響部署成本與延遲，點對點適合單人對單人的情境，SFU 才撐得住多人或更高畫質的轉發。

它還把對話拆成兩條線。前景的 PersonaAgent 專注在對話流暢度與中斷應答，背景的 SubAgent 接手搜尋、整理資料、生成 HTML 報告這類長任務。這個分工是為了不讓複雜工作拖慢語音對話輪次，你可以一邊講話一邊等 SubAgent 把結果做完送過來。

更關鍵的是全插件式的模組替換。大腦、聽覺、聲音、記憶、工具、臉孔全部是可替換的插件，在 config/cyberverse.yaml 與網頁後台的 /settings 頁面切換供應商與模型組合。它透過 LiteLLM 這個統一介面接入一百家以上的 LLM 供應商，預設配置走阿里雲 Qwen 系列或字節跳動豆包系列，但這代表你得自己準備對應的 API Key，而其中像豆包語音這類能力仍綁定第三方服務。

開源免費背後真正的門檻是顯示卡與環境

「開源可自架」這幾個字很容易被直接讀成「免費」，真正的帳單其實藏在別處。CyberVerse 的環境要求是 Python 3.10 以上、Node 18 以上、Go 1.25、Conda、FFmpeg，加上 libopus 與 libsoxr 等系統函式庫，要把它跑起來，得同時維持三個行程：Python 推理、Go 後端 API、前端伺服器。這還只是純語音模式。

最貴、也最難妥協的，是顯示卡這一關。CyberVerse 的數位人視訊依賴兩個來自 Soul AI Lab 的模型：FlashHead 1.3B 與 LiveAct 18B。官方在 README 裡給了一張硬體基準表，我把它整理成更容易判讀的形式。

模型	畫質檔位	顯示卡	數量	解析度	每秒幀數	是否即時
FlashHead 1.3B	Pro	RTX 5090	2 張	512×512	25 以上	是
FlashHead 1.3B	Pro	RTX 5090	1 張	464×464	20	是
FlashHead 1.3B	Pro	RTX PRO 6000	1 張	512×512	20	是
FlashHead 1.3B	Pro	RTX 4090	1 張	512×512	約 10.8	否
FlashHead 1.3B	Lite	RTX 4090	1 張	512×512	25 以上	是
LiveAct 18B	無	RTX PRO 6000	2 張	320×480	20	是
LiveAct 18B	無	RTX PRO 6000	1 張	256×417	20	是

看這張表的重點不是它最高能跑多快，而是那個「否」。一張要價不菲的 RTX 4090 在 Pro 畫質檔位上只能跑出大約每秒 10.8 幀，這個幀率沒辦法撐起流暢的視訊通話體驗。你要嘛退到 Lite 畫質檔位讓 4090 拉到 25 幀以上，要嘛往上一級用到 RTX 5090 或 RTX PRO 6000 這個等級的卡。CyberVerse 還提供一個 RTP（real-time performance factor）的自我檢查指標，公式是推理花掉的時間除以這段畫面在目標幀率下應該播放的長度，只要這個值大於一就代表推理跟不上播放，畫面會卡。這是一個很誠實的工程揭露，因為它直接告訴你哪些硬體組合上不了即時。

好消息是，純語音模式把 inference.avatar.enabled 設成 false 就會關閉本地數位人 GPU 推理，只發布音訊流，核心的語音互動體驗保留。這代表沒有高階 N 卡的人仍能拿它當一套可自架的語音 Agent 來玩，只是不會有臉。

純語音與數位人視訊，是兩條不同的部署路線

這裡需要把兩種使用方式分清楚，因為它們對應完全不同的成本結構。

純語音路線把 CyberVerse 當成一套語音優先的 AI Agent 平台。你設定好 ASR、LLM、TTS 三個插件的供應商，不需要任何本地 GPU，跑得起來的成本就是那些第三方 API 的計費，加上伺服器本身的開銷。這條路線最接近「自架版語音客服後台」的定位，也最適合手邊沒有高階顯示卡但想驗證產品原型的團隊。

數位人視訊路線才是 CyberVerse 真正的差異化所在，也是它最貴的一條路。你要下載 FlashHead 或 LiveAct 的模型權重，準備 CUDA 12.8 與 PyTorch 2.8 的環境，LiveAct 還得額外裝 vLLM 0.11.0。如果想榨出更快的 FP4 矩陣乘法，得自己編譯 LightX2V 的核心並備好 CUTLASS 原始碼。這條路線的目標是把那張參考照片變成會動、會說、能即時應答的角色，而它的硬體門檻就是上一節那張表。

把這兩條路線分開看，會得到一個更實際的判斷：CyberVerse 對大多數想試水溫的人，第一階段應該先走純語音模式，等產品原型與互動設計穩了，再決定要不要砸錢進數位人視訊那一層。

dual-use 風險是這套框架的核心決策軸，不是 disclaimer

CyberVerse 數位人角色示範圖，展示由照片生成的多個 AI 角色 — CyberVerse 數位人角色示範。依官方 README 聲明，這些角色僅為展示用途，未隨專案附帶、未提供商業授權。

數位人技術天生是 dual-use。它有完全正當的用途：把客服流程升級成帶臉的互動、為聽障或視障使用者打造無障礙助理、做教育或導覽的虛擬講師、讓長照陪伴有一個會應答的對象。CyberVerse 的 README 在介紹文案裡也寫了「想再次見到思念之人，聽見他的聲音，看他對你微笑」這類情感敘事，這是它能打動人的地方，也正是它需要被嚴肅對待的地方。

但同一套照片驅動數位人的能力，也是 deepfake 詐騙與身分冒用的技術底盤。用一張他人的照片、配上聲音克隆，就能合成出一個會視訊通話的假角色，這條攻擊路徑在 2024 到 2026 年之間已經有大量實際案例。CyberVerse 本身沒有強制你只能用自己的照片，框架層不會、也很難自動判斷你上傳的那張照片裡的人有沒有同意被做成數位人。同意、肖像權、聲音權，這三件事在 CyberVerse 的技術邊界之外，完全落在你身上。

這篇文章不會提供任何把他人照片或聲音拿來合成數位人的操作教學。但我必須誠實地說，這正是決定你該不該用 CyberVerse 的真正軸線。

先看素材處分權這一關。你只能用自己有完整處分權的照片與聲音素材，這包含你自己、你取得書面同意的親友、你擁有肖像授權的員工或品牌代言人、已經進入公有領域的歷史人物。沒有同意、沒有授權的素材，不論動機多感人，都不要進這套系統。這不只是道德建議，在台灣已有實際的法律後果：依刑法第 319 條之 4，製作或散布涉及他人的不實性影像（深度偽造）可處最高 5 年有期徒刑，意圖營利更重到 7 年。要留意的是，319 條之 4 的保護客體明確是性影像，CyberVerse 這類非性影像的數位人客服或陪伴角色不會直接該當這條刑責，但仍會撞上《民法》的肖像權、《個人資料保護法》對生物特徵蒐集處理的規範，以及當事人可主張的名譽權損害。換句話說，刑事紅線最硬的是性影像這條，民事責任則橫跨肖像、個資與名譽。

合成媒體揭露是另一道該建立的流程。CyberVerse 生成的角色是合成媒體（延伸閱讀：如何偵測一張圖是不是 AI 生成），用在對外場景時應該讓閱聽者知道這是 AI 生成。如果你拿它做客服，告訴使用者他們在跟 AI 講話；如果你拿它做內容，在影片或直播上標註合成來源。這不是 CyberVerse 框架會幫你做的事，是你自己要建立的流程。

最容易被忽略的是授權擴散責任。CyberVerse 採 GPL-3.0，這是一個有 copyleft 特性的強傳染授權，你若修改並對外發布 CyberVerse 本身，你的衍生作品也必須以 GPL-3.0 釋出。但 CyberVerse 呼叫的 LLM、TTS、ASR、數位人模型權重是各自獨立的第三方元件，它們的授權條款獨立計算。SoulX-FlashHead 與 SoulX-LiveAct 來自 Soul AI Lab，遵循它們自己的模型授權；豆包語音與 Qwen 系列各自有商業使用條款。商業化之前，你得逐個元件核對授權鏈，不能假設「CyberVerse 是開源的，所以整套都能拿來賣錢」。

這篇文章如果你只能帶走一句話：CyberVerse 把能力開源了，沒有把責任也開源。算力要你自己買，合規風險要你自己扛。

它跟 HeyGen、D-ID、SadTalker 的真正差別在哪

要理解 CyberVerse 的定位，最清楚的方式是跟三條不同路線的數位人方案擺在一起看。

HeyGen 與 D-ID 是閉源商業 SaaS 路線。它們把整個流程封裝成網頁服務，你上傳照片與腳本，它們在雲端生成數位人影片或即時互動。優點是零部署、零維運，缺點是按分鐘或按月計費，素材要上傳到它們的伺服器，且你無法控制它們底層用的是哪個模型。這條路線適合不在意資料外送、預算充裕、想最快上線的團隊。

SadTalker 與 MuseTalk 是開源 talking-head 路線。SadTalker 到今天累積超過一萬三千顆星，MuseTalk 也有六千顆以上，這兩個專案解的是「給一張照片與一段音訊，合成出會說話的臉」這個單點問題，本身不是完整的即時互動 Agent。你拿到的是影片檔或離線生成能力，要自己接 ASR、LLM、TTS 與串流協定才能拚出 CyberVerse 已經整合好的整套鏈路。

CyberVerse 走的是第三條路，完整的開源即時 Agent 框架。它把 WebRTC 串流、多 Agent 協作、角色記憶與 RAG、插件式模型替換、數位人視訊全部整合在同一套可自架的系統裡。它的差異化不在任何一個單點模型有多強，而在於它把這些原件兜成一條可以端到端跑起來的即時視訊通話管線，並且讓你換掉任何一個環節。它的代價就是你前面看到的部署複雜度與硬體門檻，以及 GPL-3.0 的傳染授權義務。

換句話說，HeyGen 與 D-ID 解的是「最快做出可用的數位人影片」，SadTalker 與 MuseTalk 解的是「給我照片與聲音，我給你會動的臉」，CyberVerse 解的是「我要在自己機房裡跑一套能視訊通話的 AI 角色，並能換掉它大腦裡的任何一個模型」。（若你找的是手機端而非伺服器端的開源 AI Agent，可看我們寫過的 OpenCyvis。）

適合誰，以及誰應該先等一等

CyberVerse 的硬體門檻與合規義務，會自動把潛在使用者分成兩群。

適合動手的人，可以用三個條件畫出來。第一是算力持有者：你手上有 RTX 5090 或 PRO 6000 等級的顯示卡，或願意先走純語音模式，把 inference.avatar.enabled 關掉，只跑 ASR、LLM、TTS 三個插件。第二是即時視訊 Agent 的研究者：你想驗證的是 WebRTC 點對點或 LiveKit SFU 這條串流路徑，需要一條能逐環節換模型的管線當實驗底座，而不是單點的 talking-head 合成。第三是法務 ready 的團隊：你已經有一套處理肖像權、聲音權與合成媒體揭露的內部流程，不會等角色做完才回頭補合規。對這三種人，CyberVerse 提供的是一個把過去要付雲端 SaaS 月費才能拿到的能力搬進自家機房的機會（同類的「免後端、可自架」工具，也可參考我們寫過的 DropLock 加密傳密工具）。

應該先等一等的人也差不多是同一批：不想自己拉起 Python、Go、CUDA 這條環境鏈，期待裝完就能用的人；對照硬體基準表後，手邊顯示卡全部落在 RTP 大於一、跑不出即時幀率的個人玩家；把 CyberVerse 當作能直接交付的正式產品、要求它有版本穩定保證與上線 SLA 的團隊：這個專案目前只到 v0.1.0，Roadmap 上的多 Agent 協作與直播輸出都還沒實作，把它當成品採購會踩進功能缺口；以及沒有資源處理合成媒體合規審查，但打算把它用在對外場景的人。

如果你屬於後面這幾種，CyberVerse 此刻的價值更多是讓你看見這個品類能做到什麼，而不是讓你今天就拿它上線。先從純語音模式試起，是一個風險低得多的切入點。