Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124

Input 0 是一款原始碼公開的 macOS 語音輸入工具,採用 CC BY-NC 4.0 授權,轉錄跑在本機 Metal GPU,潤色端點由你自選。本文拆解它與 OpenLess、SpokenType 的三條路線差異,以及資料流向、輔助使用權限與非商用限制這幾個取捨。
用 AI 摘要這篇文章:
macOS 內建的聽寫功能可以應付短訊息與臨時備忘,但它有兩個讓人卻步的地方。第一是它傾向逐字記下你說的每一個「嗯、啊、就是」,輸出來的是一份還要回頭刪改的草稿;第二,對很多在意資料流向的人來說,把語音交給系統級服務處理,等於把一條難以追溯的管線開在自己的電腦上。Input 0 想處理的,剛好就是這兩段。
Input 0 是一款只在 macOS 上執行的語音輸入工具,原始碼公開在 GitHub(10xChengTu/input0),以 Rust 搭配 Tauri 與 React 寫成。它的設計很單純:按住快捷鍵開始錄音,放開後先用本機的語音轉文字模型把話轉成文字,再選擇性地把你設定的 LLM API 接上去做潤色,最後把結果貼進當下焦點所在的輸入框。它把「轉錄」這一步留在你的 Mac 上,把「要不要再交給 AI 整理」獨立成一層可以開關的步驟。
這篇評測會把 Input 0 真正值得看的設計,和它要我承擔的幾個取捨,分開講清楚。最核心的一條是:轉錄確實在你的電腦上完成,但潤色這一步開箱時是透過你填入的雲端 LLM API 來做,等於把剛轉好的文字再往外送一次。再加上它採用 CC BY-NC 4.0 授權(禁止商業使用),以及需要 macOS 輔助使用權限才能把文字貼進別的 App,這幾件事疊起來,才是判斷它適不適合你的真正依據。

目錄
系統內建的聽寫到「逐字記下」就停下來了,後續刪口頭禪、順語序、補標點這些動作,全都丟回給你自己。Input 0 想插手的是系統方案放手的那一段,而且它把這段切成兩個你可以分別決定的步驟。
跟系統方案比起來,它主要多了這幾層能力:
gpt-4o-mini,但 Base URL 與 Model 都可以換)做文法修正、移除填充詞、糾正專有名詞。不填 Key,工具就只輸出原始轉錄。Cmd+V 貼進你當下焦點所在的輸入框,Slack、VS Code、瀏覽器、通訊軟體都適用,不必切換視窗。設計上比較特別的地方,在於它把「轉錄」與「潤色」當成兩個獨立的可開關步驟。轉錄永遠在你電腦上,潤色則取決於你有沒有填 API Key、填的是哪家服務。這跟 OpenLess 把預設服務綁在中國廠商雲端、或 SpokenType 把識別與潤色都包在閉源 App 裡,是三條不同的路線,下面會再展開。
整個流程從你按下快捷鍵開始,內建值是 Option+Space,可以自訂。按住的當下,畫面會出現一個半透明浮層表示正在錄音,不會把你正在打的字蓋掉。放開快捷鍵之後,本機引擎接手轉錄,這一步完全不需要連網。
如果你有設定 LLM API,轉錄完的文字會接著送到你填的那個端點做潤色;如果沒有設定,就會直接輸出原始轉錄。潤色回來的文字,最後透過模擬貼上的方式送進當下的輸入框。任何一個階段不想繼續,按 ESC 都可以中止。
這一步要分清楚一件事:轉錄是真的在你電腦上跑,但潤色開箱時是把你剛轉好的文字,送往你設定的 LLM 服務端點。換句話說,語音沒有離開裝置,但潤色後的文字會經過你指定的雲端 API。如果你接的是 OpenAI,那這段文字就走 OpenAI;如果你接的是本地 Ollama,那才會整段都不出 Mac。資料往哪送,完全由你填的 Base URL 決定,而不是工具幫你設好的。
Input 0 的安裝有兩條路。一是直接從 GitHub Releases 下載 .dmg 拖進應用程式資料夾,目前最新版是 v0.6.1(2026 年 5 月發布),只有 Apple Silicon 的 aarch64 套件,沒有提供 Intel 版安裝包。二是透過 Homebrew Cask 裝,指令是 brew install --cask input0。第一次啟動時 macOS 通常會跳安全警告,得到「系統設定 → 隱私權與安全性」裡手動按「強制打開」放行,這是未經公證的 App 常見的流程。
轉錄引擎之外,它還有一個對中文使用者特別有用的功能:自訂詞彙。你可以把公司名、產品名、人名、技術名詞預先填進去,引擎在轉錄時會優先採用你的版本;它還會自動學習你後續手動修正的結果,再用 LLM 驗證這個修正是否合理,避免把錯字也記進去。對常唸到品牌名、英文縮寫、內部代號的工作情境,這層能實際減少事後改字的次數。
Input 0 的轉錄層支援六種引擎,對應到十二種可下載的模型。你不需要全部都裝,按需下載即可。README 列出的完整清單,可以對照你的主要語言來挑:
| 模型 | 體積 | 適合情境 |
|---|---|---|
| Whisper Large v3 Turbo | 約 1.5 GB | 英文或多語混雜,精度高 |
| SenseVoice Small | 約 228 MB | 中文為主、兼顧日韓 |
| Paraformer Chinese | 約 217 MB | 純中文,推論速度快 |
| Paraformer Trilingual | 約 234 MB | 中英粵三語,是少數支援粵語的模型 |
| FireRedASR Large v1 | 約 1.74 GB | 中文辨識最高精度(CER 約 2%) |
| Moonshine Base | 約 274 MB | 純英文,速度比 Whisper 快約五倍 |
對大部分中文使用者來說,SenseVoice Small 或 Paraformer Chinese 就夠用,體積小、下載快。如果你常做中英夾雜的技術簡報或文件,Whisper Large v3 Turbo 在多語混合上的精度會比較穩。模型是從 Hugging Face 下載的,如果你所在的網路環境無法順暢連到該平台,這一步會卡住,這是下面要講的幾個門檻之一。
LLM 潤色是 Input 0 跟其他語音輸入工具最不一樣的地方,但也是我認為最需要看清楚的一層。它的設定介面接受任何相容 OpenAI 格式的端點:API Key、Base URL、Model 三個欄位填一填,按下 Test Connection 就能驗證連通。預設 Base URL 是 OpenAI,但你可以換成 Azure OpenAI、Groq、或本地端 Ollama。
潤色這一步本身有個本來就存在的取捨,跟我在 SpokenType 評測裡講的是同一件事:「潤色」這一步不是中性清理,而是 AI 改寫你剛說出口的原話。它會把「嗯、啊」拿掉,會把破碎的口語順成書面句,會把口述的「React」這類技術名詞糾正過來,但它輸出的版本,未必等於你實際想表達的那句話。對聊天訊息、草稿、備忘這類可以再改的場合很合用;對會議紀錄、學術訪談、法律陳述、病歷這類要求逐字忠實的場合,反而該把潤色關掉,或退回去用原始轉錄比對。
資料流向是另一條獨立的軸。不設定的話就是接 OpenAI,等於把你剛在本機轉好的文字再送到 OpenAI 的伺服器;接 Groq 就走 Groq;只有接本地 Ollama,整段流程才真的不出 Mac。如果你不想花 OpenAI 的錢但仍接受外送,可以接 FreeLLMAPI 這類把多家免費額度收進同一個端點的閘道(文字一樣會外送給背後的 LLM 服務,只是免費);如果完全不希望文字離開 Mac,唯一的選項是本地 Ollama。重點是:這個選擇是你要做的,不是工具幫你決定的。

這套工具的設計思路很清楚,但它對硬體、網路與權限都有前提,不是點開就能跑。安裝前最好先把下面三件事想清楚。
Cmd+V。這個權限等於讓一個 App 能控制其他 App 的輸入,是 macOS 上較敏感的一類權限,授權前要想清楚你信任這個原始碼公開的專案到什麼程度。此外它也需要麥克風權限才能錄音,這兩項都要在系統設定裡手動開啟。這部分的關鍵在 LICENSE 檔案內容,而不是 GitHub 上找得到原始碼這件事。Input 0 的 LICENSE 檔案寫的是 Creative Commons Attribution-NonCommercial 4.0 International,也就是 CC BY-NC 4.0。GitHub API 回傳的 SPDX 是 NOASSERTION,意思是它不是 OSI 認可的標準開源授權,而是一個允許你分享與改作、但禁止商業使用的條款。
這對個人學習、非營利研究、自己日常使用沒有影響,但如果你想把它放進一個會產生營收的產品流程裡長期使用,或包進商業服務交付給客戶,這條授權就會構成實質限制。判斷時不要只看「GitHub 上找得到原始碼」,要看實際的 LICENSE 內容。這跟 Agent Battery 那種連 LICENSE 檔都沒有的「原始碼公開但保留所有權利」是不同級別,但同樣需要你動手核對授權邊界。

語音輸入這個分類,TechMoon 已經寫過兩篇可以對照的工具,Input 0 剛好補上第三種路線。把它們擺在一起看,差異比規格表更清楚。
這三條路線對應三種不同的信任假設。OpenLess 著眼的是方便,裝好就接好雲端、MIT 授權可商用;SpokenType 走的是整合度,閉源全方位、訂閱制;Input 0 把「轉錄留在本機、潤色端點自選」當成預設值。如果你對語音離開裝置這件事特別在意,Input 0 的初始設定最貼近你;如果你要的是開箱即用的全方位整理,SpokenType 或 OpenLess 會順手得多;如果你想把它接進自己的產品流程商用,那麼 OpenLess 的 MIT 授權是三者中唯一明確允許的。
一個容易被忽略的細節:三者的潤色其實是同一類風險,只是包裝不同。SpokenType 把潤色綁在自家 App 與第三方服務商的協議裡,你看到的只有隱私政策的一句描述;OpenLess 一啟動就把潤色送往 DeepSeek 雲端,你可以切換但預設不是本機;Input 0 把這個選擇權直接交到你手上,你填的 Base URL 就是你的資料流向邊界。換句話說,潤色會不會外送、送往哪一家,這三款工具的答案其實都取決於你的設定,差別在於預設值與透明度。
把上面幾件事疊起來看,Input 0 比較適合這樣的讀者:你是 M 系列 Mac 使用者,平常要打大量郵件、訊息、技術文件或會議草稿,常常夾雜中英文與專有名詞,對「語音交給雲端服務處理」這件事有顧忌,而且願意花一個下午下載模型、設定 LLM 端點、配置輔助使用權限。
反過來說,如果你只是偶爾想用語音發個短訊息,不想自己挑模型、不想管 API Key、也不想授予輔助使用權限,那系統內建聽寫或 SpokenType 這類開箱即用的方案會更省事。Input 0 的價值建立在「你願意動手設定,換來一條你看得見邊界的資料流向」這件事上,這個前提不成立,它對你的吸引力就會打折。
Input 0 走的是一條很收斂的路:把語音轉成文字這一步留在你的 Mac 上,再把要不要讓 LLM 整理、要交給哪家 LLM,留給你自己選。你為此要自己處理模型下載、API 設定、輔助使用權限三件事,換來的是每段流程的資料流向都攤在你面前,而不是被封裝在某個你不能審計的服務裡。
判斷它適不適合你,可以收斂成一條問題:你願不願意為了「轉錄留在本機」這個出廠設定,去承擔 CC BY-NC 4.0 的非商用限制、模型下載的網路前提、Apple Silicon 的硬體建議,以及授予一個能控制其他 App 的輔助使用權限。如果你的工作內容涉及大量機密口述、對雲端語音服務有政策或合規限制,又願意自己挑模型、設 API、管權限,這個取捨很可能值得;如果你只是想順順地說話變文字,不想碰這些設定細節,那別的路線會更適合你。
如果你想把這種「本地 AI 接外部資料源」的設計再推一步,讓 AI 直接讀飛書上的中文公開教學,可以看 飛搜 FeiSou 把飛書公開文件做成 API 的第三方搜尋引擎,它跟 Input 0 是同一類「兩層資料流向拆解」的工具。