Input 0 開源 macOS 語音輸入工具：本機轉錄是真的，但 LLM 潤色預設外送雲端 API

Facebook Line Messenger Telegram

macOS 內建的聽寫功能可以應付短訊息與臨時備忘，但它有兩個讓人卻步的地方。第一是它傾向逐字記下你說的每一個「嗯、啊、就是」，輸出來的是一份還要回頭刪改的草稿；第二，對很多在意資料流向的人來說，把語音交給系統級服務處理，等於把一條難以追溯的管線開在自己的電腦上。Input 0 想處理的，剛好就是這兩段。

Input 0 是一款只在 macOS 上執行的語音輸入工具，原始碼公開在 GitHub（10xChengTu/input0），以 Rust 搭配 Tauri 與 React 寫成。它的設計很單純：按住快捷鍵開始錄音，放開後先用本機的語音轉文字模型把話轉成文字，再選擇性地把你設定的 LLM API 接上去做潤色，最後把結果貼進當下焦點所在的輸入框。它把「轉錄」這一步留在你的 Mac 上，把「要不要再交給 AI 整理」獨立成一層可以開關的步驟。

這篇評測會把 Input 0 真正值得看的設計，和它要我承擔的幾個取捨，分開講清楚。最核心的一條是：轉錄確實在你的電腦上完成，但潤色這一步開箱時是透過你填入的雲端 LLM API 來做，等於把剛轉好的文字再往外送一次。再加上它採用 CC BY-NC 4.0 授權（禁止商業使用），以及需要 macOS 輔助使用權限才能把文字貼進別的 App，這幾件事疊起來，才是判斷它適不適合你的真正依據。

Input 0 的 GitHub 專案頁，顯示 Rust 與 Tauri 技術棧、282 星標與浮層錄音介面說明 — Input 0 的 GitHub 專案頁：原始碼公開、Rust 加 Tauri、282 顆星標。

它跟系統內建聽寫，多做了哪兩步

系統內建的聽寫到「逐字記下」就停下來了，後續刪口頭禪、順語序、補標點這些動作，全都丟回給你自己。Input 0 想插手的是系統方案放手的那一段，而且它把這段切成兩個你可以分別決定的步驟。

跟系統方案比起來，它主要多了這幾層能力：

本機轉錄：語音到文字這一步，跑在你電腦上的 Metal GPU，音訊不離開裝置。README 列出六種引擎、十二種模型可以選，覆蓋英文、中文、多語種。
選用的 LLM 潤色：如果你填了 API Key，轉錄後的文字會再交給你指定的 LLM（出廠值是 OpenAI 的 gpt-4o-mini，但 Base URL 與 Model 都可以換）做文法修正、移除填充詞、糾正專有名詞。不填 Key，工具就只輸出原始轉錄。
跨應用貼上：潤色後的文字會自動模擬 Cmd+V 貼進你當下焦點所在的輸入框，Slack、VS Code、瀏覽器、通訊軟體都適用，不必切換視窗。
歷史紀錄：保留每一次的原始轉錄與潤色後版本並排，方便事後比對 LLM 改了哪些地方。對需要回頭確認潤色有沒有改動原意的場合，這層並排檢視比只能看最終結果的工具更實用。

設計上比較特別的地方，在於它把「轉錄」與「潤色」當成兩個獨立的可開關步驟。轉錄永遠在你電腦上，潤色則取決於你有沒有填 API Key、填的是哪家服務。這跟 OpenLess 把預設服務綁在中國廠商雲端、或 SpokenType 把識別與潤色都包在閉源 App 裡，是三條不同的路線，下面會再展開。

實際工作流程長什麼樣

整個流程從你按下快捷鍵開始，內建值是 Option+Space，可以自訂。按住的當下，畫面會出現一個半透明浮層表示正在錄音，不會把你正在打的字蓋掉。放開快捷鍵之後，本機引擎接手轉錄，這一步完全不需要連網。

如果你有設定 LLM API，轉錄完的文字會接著送到你填的那個端點做潤色；如果沒有設定，就會直接輸出原始轉錄。潤色回來的文字，最後透過模擬貼上的方式送進當下的輸入框。任何一個階段不想繼續，按 ESC 都可以中止。

這一步要分清楚一件事：轉錄是真的在你電腦上跑，但潤色開箱時是把你剛轉好的文字，送往你設定的 LLM 服務端點。換句話說，語音沒有離開裝置，但潤色後的文字會經過你指定的雲端 API。如果你接的是 OpenAI，那這段文字就走 OpenAI；如果你接的是本地 Ollama，那才會整段都不出 Mac。資料往哪送，完全由你填的 Base URL 決定，而不是工具幫你設好的。

安裝與自訂詞彙的實際路徑

Input 0 的安裝有兩條路。一是直接從 GitHub Releases 下載 .dmg 拖進應用程式資料夾，目前最新版是 v0.6.1（2026 年 5 月發布），只有 Apple Silicon 的 aarch64 套件，沒有提供 Intel 版安裝包。二是透過 Homebrew Cask 裝，指令是 brew install --cask input0。第一次啟動時 macOS 通常會跳安全警告，得到「系統設定 → 隱私權與安全性」裡手動按「強制打開」放行，這是未經公證的 App 常見的流程。

轉錄引擎之外，它還有一個對中文使用者特別有用的功能：自訂詞彙。你可以把公司名、產品名、人名、技術名詞預先填進去，引擎在轉錄時會優先採用你的版本；它還會自動學習你後續手動修正的結果，再用 LLM 驗證這個修正是否合理，避免把錯字也記進去。對常唸到品牌名、英文縮寫、內部代號的工作情境，這層能實際減少事後改字的次數。

六種轉錄引擎，怎麼挑

Input 0 的轉錄層支援六種引擎，對應到十二種可下載的模型。你不需要全部都裝，按需下載即可。README 列出的完整清單，可以對照你的主要語言來挑：

模型	體積	適合情境
Whisper Large v3 Turbo	約 1.5 GB	英文或多語混雜，精度高
SenseVoice Small	約 228 MB	中文為主、兼顧日韓
Paraformer Chinese	約 217 MB	純中文，推論速度快
Paraformer Trilingual	約 234 MB	中英粵三語，是少數支援粵語的模型
FireRedASR Large v1	約 1.74 GB	中文辨識最高精度（CER 約 2%）
Moonshine Base	約 274 MB	純英文，速度比 Whisper 快約五倍

對大部分中文使用者來說，SenseVoice Small 或 Paraformer Chinese 就夠用，體積小、下載快。如果你常做中英夾雜的技術簡報或文件，Whisper Large v3 Turbo 在多語混合上的精度會比較穩。模型是從 Hugging Face 下載的，如果你所在的網路環境無法順暢連到該平台，這一步會卡住，這是下面要講的幾個門檻之一。

潤色這一層，你要把它當成什麼

LLM 潤色是 Input 0 跟其他語音輸入工具最不一樣的地方，但也是我認為最需要看清楚的一層。它的設定介面接受任何相容 OpenAI 格式的端點：API Key、Base URL、Model 三個欄位填一填，按下 Test Connection 就能驗證連通。預設 Base URL 是 OpenAI，但你可以換成 Azure OpenAI、Groq、或本地端 Ollama。

潤色這一步本身有個本來就存在的取捨，跟我在 SpokenType 評測裡講的是同一件事：「潤色」這一步不是中性清理，而是 AI 改寫你剛說出口的原話。它會把「嗯、啊」拿掉，會把破碎的口語順成書面句，會把口述的「React」這類技術名詞糾正過來，但它輸出的版本，未必等於你實際想表達的那句話。對聊天訊息、草稿、備忘這類可以再改的場合很合用；對會議紀錄、學術訪談、法律陳述、病歷這類要求逐字忠實的場合，反而該把潤色關掉，或退回去用原始轉錄比對。

資料流向是另一條獨立的軸。不設定的話就是接 OpenAI，等於把你剛在本機轉好的文字再送到 OpenAI 的伺服器；接 Groq 就走 Groq；只有接本地 Ollama，整段流程才真的不出 Mac。如果你不想花 OpenAI 的錢但仍接受外送，可以接 FreeLLMAPI 這類把多家免費額度收進同一個端點的閘道（文字一樣會外送給背後的 LLM 服務，只是免費）；如果完全不希望文字離開 Mac，唯一的選項是本地 Ollama。重點是：這個選擇是你要做的，不是工具幫你決定的。

Input 0 官方 README 主介面截圖，顯示按住快捷鍵錄音、放開後本機轉錄再貼進任意輸入框的流程 — Input 0 主介面：按住快捷鍵錄音、放開後本機轉錄再貼進任意輸入框。

使用前最容易踩到的三個前提

這套工具的設計思路很清楚，但它對硬體、網路與權限都有前提，不是點開就能跑。安裝前最好先把下面三件事想清楚。

模型下載的網路前提：本機模型是從 Hugging Face 拉下來的。如果你所在的網路環境連 Hugging Face 不順，模型下載這一步會直接卡住。這不是工具的問題，但會實際影響你能不能用得起來，README 的 Troubleshooting 段也把「模型下載失敗」列為第一個常見問題。
Apple Silicon 的硬體前提：官方建議在 M 系列晶片的 Mac 上跑，因為轉錄引擎走 Metal GPU 加速。Intel 晶片的 Mac 理論上能跑，但速度與發熱表現會打折扣。系統最低要求是 macOS 11.0 以上，而官方釋出的安裝包只有 Apple Silicon 版本。
授權前先問自己一個問題：要把潤色後的文字貼進別的 App，Input 0 需要你授予 macOS 的輔助使用權限（Accessibility），讓它能模擬 Cmd+V。這個權限等於讓一個 App 能控制其他 App 的輸入，是 macOS 上較敏感的一類權限，授權前要想清楚你信任這個原始碼公開的專案到什麼程度。此外它也需要麥克風權限才能錄音，這兩項都要在系統設定裡手動開啟。

授權是 CC BY-NC 4.0，不是標準開源

這部分的關鍵在 LICENSE 檔案內容，而不是 GitHub 上找得到原始碼這件事。Input 0 的 LICENSE 檔案寫的是 Creative Commons Attribution-NonCommercial 4.0 International，也就是 CC BY-NC 4.0。GitHub API 回傳的 SPDX 是 NOASSERTION，意思是它不是 OSI 認可的標準開源授權，而是一個允許你分享與改作、但禁止商業使用的條款。

Input 0 官方網站 input0.com 首頁，主打本機語音轉文字與 LLM 潤色的 macOS 工具 — Input 0 官方網站 input0.com：主打本機語音轉文字與可選的 LLM 潤色。

跟 OpenLess、SpokenType 比起來，它站在哪個位置

語音輸入這個分類，TechMoon 已經寫過兩篇可以對照的工具，Input 0 剛好補上第三種路線。把它們擺在一起看，差異比規格表更清楚。

OpenLess：Rust 加 Tauri 的開源語音輸入工具，MIT 授權，原始碼可以自由商業使用。它的開箱語音識別走的是 Volcengine（字節跳動）的雲端串流 ASR，預設 LLM 是 DeepSeek 雲端。要本機優先得自己切換到內建的 Qwen3-ASR 與本地模型。差別在於：OpenLess 一裝好就幫你把雲端服務接好，你方便但資料外送；Input 0 預設本機轉錄，潤色才外送。
SpokenType：覆蓋 Mac、Windows、Android 的閉源商業訂閱工具，本地與雲端雙模式 ASR，潤色用十幾家第三方服務商，自帶 API。它的整合度最高（潤色、翻譯、回覆草稿一把罩），但你無法審計資料流向，只能仰賴官網隱私政策。差別在於：SpokenType 是閉源全方位助理，Input 0 是原始碼公開、單一功能、你自己決定資料往哪送。
Input 0：CC BY-NC 4.0（非商用）、macOS 限定、本機轉錄為主、潤色端點自選。它的差異化在最後這一條：你填的 Base URL，決定了你的文字會經過誰的手。

這三條路線對應三種不同的信任假設。OpenLess 著眼的是方便，裝好就接好雲端、MIT 授權可商用；SpokenType 走的是整合度，閉源全方位、訂閱制；Input 0 把「轉錄留在本機、潤色端點自選」當成預設值。如果你對語音離開裝置這件事特別在意，Input 0 的初始設定最貼近你；如果你要的是開箱即用的全方位整理，SpokenType 或 OpenLess 會順手得多；如果你想把它接進自己的產品流程商用，那麼 OpenLess 的 MIT 授權是三者中唯一明確允許的。

一個容易被忽略的細節：三者的潤色其實是同一類風險，只是包裝不同。SpokenType 把潤色綁在自家 App 與第三方服務商的協議裡，你看到的只有隱私政策的一句描述；OpenLess 一啟動就把潤色送往 DeepSeek 雲端，你可以切換但預設不是本機；Input 0 把這個選擇權直接交到你手上，你填的 Base URL 就是你的資料流向邊界。換句話說，潤色會不會外送、送往哪一家，這三款工具的答案其實都取決於你的設定，差別在於預設值與透明度。

什麼人適合動手裝這套

把上面幾件事疊起來看，Input 0 比較適合這樣的讀者：你是 M 系列 Mac 使用者，平常要打大量郵件、訊息、技術文件或會議草稿，常常夾雜中英文與專有名詞，對「語音交給雲端服務處理」這件事有顧忌，而且願意花一個下午下載模型、設定 LLM 端點、配置輔助使用權限。

反過來說，如果你只是偶爾想用語音發個短訊息，不想自己挑模型、不想管 API Key、也不想授予輔助使用權限，那系統內建聽寫或 SpokenType 這類開箱即用的方案會更省事。Input 0 的價值建立在「你願意動手設定，換來一條你看得見邊界的資料流向」這件事上，這個前提不成立，它對你的吸引力就會打折。

把它放回它真正經得起檢驗的用途

Input 0 走的是一條很收斂的路：把語音轉成文字這一步留在你的 Mac 上，再把要不要讓 LLM 整理、要交給哪家 LLM，留給你自己選。你為此要自己處理模型下載、API 設定、輔助使用權限三件事，換來的是每段流程的資料流向都攤在你面前，而不是被封裝在某個你不能審計的服務裡。

判斷它適不適合你，可以收斂成一條問題：你願不願意為了「轉錄留在本機」這個出廠設定，去承擔 CC BY-NC 4.0 的非商用限制、模型下載的網路前提、Apple Silicon 的硬體建議，以及授予一個能控制其他 App 的輔助使用權限。如果你的工作內容涉及大量機密口述、對雲端語音服務有政策或合規限制，又願意自己挑模型、設 API、管權限，這個取捨很可能值得；如果你只是想順順地說話變文字，不想碰這些設定細節，那別的路線會更適合你。

如果你想把這種「本地 AI 接外部資料源」的設計再推一步，讓 AI 直接讀飛書上的中文公開教學，可以看飛搜 FeiSou 把飛書公開文件做成 API 的第三方搜尋引擎，它跟 Input 0 是同一類「兩層資料流向拆解」的工具。