Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124

OpenCyvis 是採用 Apache 2.0 授權的開源 Android AI 手機 Agent,靠 VirtualDisplay 讓 AI 在後台虛擬螢幕操作 App,模型可自選雲端或本地 Ollama。本文解析雙通道運作原理、v2.0 兩種安裝模式、與 Tasker 的差異,以及全權限 Agent 的真實隱私邊界。
用 AI 摘要這篇文章:
OpenCyvis 是一個用 Kotlin 寫的開源 Android AI 手機 Agent,它的核心想法是把一塊你看不到的後台虛擬顯示器交給 AI,讓 AI 在那塊螢幕上替你點 App、打字、跑流程,你主螢幕可以繼續看片聊天不被打斷。專案全名 Open Cyber Jarvis,採用 Apache 2.0 授權,由 opencyvis 組織維護,截至 2026 年 7 月已發布到 v2.0,GitHub 上累積約 351 顆星與 54 個 fork。
跟手機 Agent 一樣會用到螢幕與高權限的,還有這篇討論的鄰雲是什麼?區域網路遠端控制工具,它把檔案、螢幕與終端機整合進單一 App。

如果你只是要找一個不用動腦、裝了就能用的手機助理,OpenCyvis 目前還不是答案。它真正值得關注的理由是另一件事:它把商業 AI 手機最不透明的三件事(用哪個模型、資料送到哪、AI 究竟拿到哪些權限)全部攤開給你看,還讓你自己挑模型。這篇要回答的就是:它到底怎麼運作、部署門檻在哪、跟 Tasker 這類老牌自動化工具差在哪、以及什麼樣的人現在值得碰它。
目錄
OpenCyvis 不是傳統 ADB 連線模擬點擊的腳本工具。它呼叫 Android 系統的 VirtualDisplay 能力,開出一塊獨立的後台螢幕,AI 在那塊螢幕裡看畫面、操作 App,你的主螢幕完全不受影響。這也是它名字裡「後台虛擬顯示器」的由來。
為了讓 AI 真能看懂介面,它餵給模型兩份資料:虛擬螢幕的即時截圖,讓模型掌握畫面長相;以及 Accessibility Tree,也就是 Android 無障礙服務提供的 UI 元素結構樹,裡頭有每個按鈕的座標、文字與層級。專案選擇同時餵這兩份的原因,是結構樹能給模型確切的座標,不必靠視覺猜按鈕落在哪,碰到介面複雜的 App 比單看截圖可靠。
你可以隨時切進去看 AI 在虛擬螢幕裡幹嘛,覺得怪就接手,沒事再還給它。這個「可監督」的設計是它跟全黑箱商業方案最大的形式差異。

早期討論 OpenCyvis 時,很多人以為它只能透過編譯進 AOSP 系統映像、刷機才能用。v2.0 已經不是這樣。專案現在提供兩種安裝模式,共用同一套 AI 引擎與模型後端,差別只在取得系統權限的方式。
標準模式是給一般進階使用者。從 GitHub Releases 下 opencyvis-standard-release.apk,套件名 ai.opencyvis.standard,Android 11 以上都能裝。安裝後跟著精靈做無線 ADB 配對:到系統的無線偵錯拿到六位數配對碼,下拉通知列把碼打進 OpenCyvis 通知欄就完成。過程全程在手機上跑,不需要電腦、不需要 root、不需要刷 ROM。部分陸廠 ROM 例如 ColorOS、MIUI、OriginOS 會背景凍結 App,配對時若系統問你要不要允許背景活動或忽略電池最佳化,選允許會比較順。
System App 模式才是給開發者與 ROM 玩家。把 opencyvis-system-release.apk 編進自架 AOSP 映像,用平台金鑰簽章,App 以系統等級(uid system)執行。這模式下截圖走 SurfaceControl 直接呼叫,速度最快,虛擬顯示器任務管理也用系統 API。簡單說,標準模式靠 ADB shell 權限(uid 2000),System App 模式靠平台簽章,日常使用感覺不出差別,差別在底層權限來源。
OpenCyvis 不綁單一模型廠,這是它跟多數商業 AI 手機方案最硬的差異。你可以接 OpenAI 相容 API(例如 Qwen、GPT),也能原生接 Anthropic Claude。官方測過的雲端模型包括 Qwen 3.5 Plus(推薦,每步 4 到 6 秒)、Claude Opus 4(推理品質最高,每步 4 到 8 秒)、MiMo v2.5(最快,每步 2.3 到 4.5 秒)、GPT-4o(偶爾會忽略工具呼叫)。
更關鍵的是它支援透過 Ollama 跑純本地模型。Gemma 4 26B-A4B 量化版佔 17 GB、每秒 63 token 是官方推薦的均衡選擇;Gemma 4 E2B 只要 1.8 GB、每秒 41 token,是最低門檻。本地模型的好處是截圖與 UI 結構樹不出裝置,壞處是你手機的算力與記憶體要扛得住這些大模型,這個硬體需求很實在。
選哪個模型,本質上就是一道資料流向抉擇。選雲端 API,等於把你手機螢幕的截圖與操作內容送給對應服務商;選本地 Ollama,資料留在手機,但你要自己張羅算力。OpenCyvis 只是讓這個選項變得可行,選什麼的代價由你承擔。
v2.0 加了兩個實用方向。第一個是遠端控制。你在自己手機的 IM 機器人(目前支援飛書 Feishu 與 Telegram)發訊息,就能指揮另一支裝了 OpenCyvis 的手機。典型情境是把 OpenCyvis 裝在長輩手機上,長輩說字太小,你在 IM 發一句「把字體調到最大」,AI 就改好並回傳確認截圖,兩人不必同時盯著螢幕。配對一樣用六位數碼,支援發指令、收進度、看截圖、回答 AI 的提問與停止任務。對異地支援家人手機這類情境,這個設計比遠端桌面輕得多,因為你不需要看到對方畫面,只要讀 AI 回報的文字與截圖。
第二個是 Routines,把常用操作存下來排程或一鍵觸發。例如設成每天早上八點自動看行事曆、查天氣、掃未讀郵件,再把摘要推到聊天室。它還支援地理圍籬,到了辦公室自動打卡這類基於位置的流程。Routines 把 OpenCyvis 從「臨時叫 AI 做一件事」推進到「固定流程自動跑」,這也是它跟 Tasker 那類排程工具開始有點交集的地方,只是 Routines 背後靠 AI 視覺判斷,而非死的腳本邏輯。

Android 自動化不是新鮮事,Tasker 跑了十幾年,AutoX.js 是開源的腳本自動化工具,HamiBot 走雲端腳本市集。它們的共同前提是「你寫腳本」,UI 元素靠 resource-id 或座標定位,流程是死的。
OpenCyvis 走的路線是讓 AI 自己看畫面、自己判斷要點哪裡。你給它一句自然語言,例如「幫我在 Amazon 和 Walmart 比 AirPods 的價」,它自己開 App、搜尋、比對、回報。官方釋出的 demo 影片裡可以看到 AI 在虛擬顯示器裡完成跨 App 比價,使用者主螢幕同時在做別的事,不過這是廠商自己的展示,第三方實測的穩定性與成功率還待驗證。腳本工具做不到這種語意理解,VirtualDisplay 讓 AI 後台操作不卡主螢幕這點也是 Tasker 那類前台模擬工具沒有的。
但反過來也誠實講:腳本工具的可預測性與穩定性遠高於 AI 視覺判斷。AI 會看錯、會誤點、會被廠商改版介面搞糊塗。要重複執行上百次相同流程,腳本還是比較穩;要處理「幫我處理這件臨時的、沒寫過腳本的事」,AI Agent 才有優勢。如果你對手機自動化的興趣是固定流程,可以先看我們之前整理的 Android 自動化與手機工具相關介紹。
講完使用面,兩種模式在底層還有個值得拆開看的設計:它們共用同一套上層程式碼,差別被隔離在一個叫 PrivilegeBackend 的介面後面。標準模式用的是 RemoteBackend,靠 ADB shell 權限(uid 2000),輸入注入走 AIDL proxy 到 PrivilegedService,截圖用 ImageReader 從虛擬顯示器的 Surface 抓。System App 模式用的是 SystemBackend,靠平台簽章(uid system),輸入注入用 InputManager 反射,截圖直接呼叫 SurfaceControl.screenshot(),虛擬顯示器任務管理用 ActivityTaskManager 反射。
你今天用標準模式跑得通的任務,換到 System App 模式行為一致,差別只在底層權限來源與截圖速度。對開發者來說,這代表你可以先在 ADB 配對的環境驗證流程,再決定要不要投資刷 AOSP 映像換更快的截圖路徑。對一般使用者來說,這個抽象層代表你不用為了「完整功能」被逼著刷機,標準模式就拿到全部 AI 能力。
一個擁有讀螢幕、點 App、打字全量權限的 AI Agent,是手機能跑的最高權限軟體類別。OpenCyvis 自己在文件裡也講得很直白:「這不是可以信任的地方」。它的承諾是:截圖只存記憶體不寫磁碟、零遙測零分析、程式碼全開源可審計、本地模型選項讓資料不出裝置。這些承諾讓它比閉源方案更容易被檢查,但開源本身不等於零風險,也不替你擔保模型服務商那一端的處理。
真正的隱私邊界取決於你怎麼用。如果你為了反應速度接雲端大模型 API,你的螢幕截圖與 UI 結構樹依然會送給對應服務商,這跟 OpenCyvis 開不開源無關,是模型端點的合規問題。如果你自架系統映像,映像乾不乾淨、密鑰怎麼管,也是你自己的事。對這類「素材丟給 AI 前要不要先脫敏」的隱私決策,我們在 Privacy Filter 隱私過濾工具 這篇有過討論,核心原則同樣適用:工具提供選項,判斷責任在你。
適合現在就關注 OpenCyvis 的人,是 Android 開發者、ROM 玩家、研究私有化 AI 工作流的技術團隊。對這群人,它是一個值得持續追蹤的技術參考,VirtualDisplay 加雙通道理解加模型自選這個組合,目前沒有太多開源對手。OpenCyvis 走的是裝置端的手機 Agent 路線,開源 AI Agent 的形態不只這一種,例如 CyberVerse 這類伺服器端的數位人 Agent 就走完全不同的部署與互動模型。如果你對把 AI 用量視覺化有興趣,也可以順著 Agent Battery 用量監控工具 的思路,把 OpenCyvis 的 API 呼叫也納入自己的觀測。
如果你只是個普通使用者,現在還不是進場的時機。標準模式雖然把刷機拿掉了,但 ADB 配對、模型後端設定、應付廠商 ROM 背景限制這些事一樣要自己扛,而且全權限 AI Agent 跑在你裝了銀行 App 與聊天軟體的主力機上,風險與收益目前不對等。等專案 Roadmap 提到的「更輕量權限取得方式」與跨裝置協作成熟一點,再回來看會更踏實。
第一,先別裝在主力機。準備一台能刷 AOSP 的測試機或用官方的 deploy-emu.sh 模擬器腳本跑通流程,確認你理解權限與資料流向再考慮上真機。判斷標準是你能在模擬器裡完成一次跨 App 任務並看懂它送出哪些資料,預期結果是建立對這套框架的真實掌握。
第二,決定模型後端的取向。在意資料外流的話,本地 Ollama 配 Gemma 4 E2B 是最低門檻起點;追求任務成功率的話,雲端 Qwen 3.5 Plus 或 Claude Opus 4 的 4/4 通過率目前最穩。這個選擇會直接決定你的截圖與操作內容留不留在手機上。
第三,把 OpenCyvis 的 GitHub 倉庫與 Release 列入追蹤。專案還在快速迭代,v2.0 才把刷機這關降下來,後續 Roadmap 還有更輕量的權限模式與跨裝置協作。等它在你的測試環境穩定,再評估要不要搬上日常機。
OpenCyvis 需要刷機或 root 嗎?
v2.0 的標準模式不需要。下 APK、做無線 ADB 配對就能跑,Android 11 以上通用。要的是開發者選項裡的無線偵錯,不是 root。System App 模式才需要編進 AOSP 映像,那是給開發者用的進階路線。
它會讀到我手機裡的密碼或銀行資料嗎?
技術上有這個能力,因為它拿的是讀螢幕與跨 App 操作的全量權限。截圖官方宣稱只存記憶體不寫磁碟,但你看得到什麼,AI 就看得到什麼。要不要讓它碰這類敏感 App,是你自己要畫的紅線。
能拿來批量操作帳號或刷量嗎?
技術上做得到,因為它拿的是全權限。但能不能用要看各家平台的服務條款,OpenCyvis 自己不設護欄,責任落在呼叫端。把高權限 Agent 拿去衝量或繞平台規則,帳號被封是平台端的事,跟這套框架開不開源無關。
支援 iPhone 嗎?
不支援。OpenCyvis 建立在 Android 的 VirtualDisplay 與無障礙服務之上,iOS 沒有對等的開放能力。它是純 Android 方案。