Input 0 開源 macOS 語音輸入工具:本機轉錄是真的,但 LLM 潤色預設外送雲端 API

Input 0 是一款原始碼公開的 macOS 語音輸入工具,採用 CC BY-NC 4.0 授權,轉錄跑在本機 Metal GPU,潤色端點由你自選。本文拆解它與 OpenLess、SpokenType 的三條路線差異,以及資料流向、輔助使用權限與非商用限制這幾個取捨。

用 AI 摘要這篇文章:

macOS 內建的聽寫功能可以應付短訊息與臨時備忘,但它有兩個讓人卻步的地方。第一是它傾向逐字記下你說的每一個「嗯、啊、就是」,輸出來的是一份還要回頭刪改的草稿;第二,對很多在意資料流向的人來說,把語音交給系統級服務處理,等於把一條難以追溯的管線開在自己的電腦上。Input 0 想處理的,剛好就是這兩段。

Input 0 是一款只在 macOS 上執行的語音輸入工具,原始碼公開在 GitHub(10xChengTu/input0),以 Rust 搭配 Tauri 與 React 寫成。它的設計很單純:按住快捷鍵開始錄音,放開後先用本機的語音轉文字模型把話轉成文字,再選擇性地把你設定的 LLM API 接上去做潤色,最後把結果貼進當下焦點所在的輸入框。它把「轉錄」這一步留在你的 Mac 上,把「要不要再交給 AI 整理」獨立成一層可以開關的步驟。

這篇評測會把 Input 0 真正值得看的設計,和它要我承擔的幾個取捨,分開講清楚。最核心的一條是:轉錄確實在你的電腦上完成,但潤色這一步開箱時是透過你填入的雲端 LLM API 來做,等於把剛轉好的文字再往外送一次。再加上它採用 CC BY-NC 4.0 授權(禁止商業使用),以及需要 macOS 輔助使用權限才能把文字貼進別的 App,這幾件事疊起來,才是判斷它適不適合你的真正依據。

Input 0 的 GitHub 專案頁,顯示 Rust 與 Tauri 技術棧、282 星標與浮層錄音介面說明Pin
Input 0 的 GitHub 專案頁:原始碼公開、Rust 加 Tauri、282 顆星標。

它跟系統內建聽寫,多做了哪兩步

系統內建的聽寫到「逐字記下」就停下來了,後續刪口頭禪、順語序、補標點這些動作,全都丟回給你自己。Input 0 想插手的是系統方案放手的那一段,而且它把這段切成兩個你可以分別決定的步驟。

跟系統方案比起來,它主要多了這幾層能力:

  • 本機轉錄:語音到文字這一步,跑在你電腦上的 Metal GPU,音訊不離開裝置。README 列出六種引擎、十二種模型可以選,覆蓋英文、中文、多語種。
  • 選用的 LLM 潤色:如果你填了 API Key,轉錄後的文字會再交給你指定的 LLM(出廠值是 OpenAI 的 gpt-4o-mini,但 Base URL 與 Model 都可以換)做文法修正、移除填充詞、糾正專有名詞。不填 Key,工具就只輸出原始轉錄。
  • 跨應用貼上:潤色後的文字會自動模擬 Cmd+V 貼進你當下焦點所在的輸入框,Slack、VS Code、瀏覽器、通訊軟體都適用,不必切換視窗。
  • 歷史紀錄:保留每一次的原始轉錄與潤色後版本並排,方便事後比對 LLM 改了哪些地方。對需要回頭確認潤色有沒有改動原意的場合,這層並排檢視比只能看最終結果的工具更實用。

設計上比較特別的地方,在於它把「轉錄」與「潤色」當成兩個獨立的可開關步驟。轉錄永遠在你電腦上,潤色則取決於你有沒有填 API Key、填的是哪家服務。這跟 OpenLess 把預設服務綁在中國廠商雲端、或 SpokenType 把識別與潤色都包在閉源 App 裡,是三條不同的路線,下面會再展開。

實際工作流程長什麼樣

整個流程從你按下快捷鍵開始,內建值是 Option+Space,可以自訂。按住的當下,畫面會出現一個半透明浮層表示正在錄音,不會把你正在打的字蓋掉。放開快捷鍵之後,本機引擎接手轉錄,這一步完全不需要連網。

如果你有設定 LLM API,轉錄完的文字會接著送到你填的那個端點做潤色;如果沒有設定,就會直接輸出原始轉錄。潤色回來的文字,最後透過模擬貼上的方式送進當下的輸入框。任何一個階段不想繼續,按 ESC 都可以中止。

這一步要分清楚一件事:轉錄是真的在你電腦上跑,但潤色開箱時是把你剛轉好的文字,送往你設定的 LLM 服務端點。換句話說,語音沒有離開裝置,但潤色後的文字會經過你指定的雲端 API。如果你接的是 OpenAI,那這段文字就走 OpenAI;如果你接的是本地 Ollama,那才會整段都不出 Mac。資料往哪送,完全由你填的 Base URL 決定,而不是工具幫你設好的。

安裝與自訂詞彙的實際路徑

Input 0 的安裝有兩條路。一是直接從 GitHub Releases 下載 .dmg 拖進應用程式資料夾,目前最新版是 v0.6.1(2026 年 5 月發布),只有 Apple Silicon 的 aarch64 套件,沒有提供 Intel 版安裝包。二是透過 Homebrew Cask 裝,指令是 brew install --cask input0。第一次啟動時 macOS 通常會跳安全警告,得到「系統設定 → 隱私權與安全性」裡手動按「強制打開」放行,這是未經公證的 App 常見的流程。

轉錄引擎之外,它還有一個對中文使用者特別有用的功能:自訂詞彙。你可以把公司名、產品名、人名、技術名詞預先填進去,引擎在轉錄時會優先採用你的版本;它還會自動學習你後續手動修正的結果,再用 LLM 驗證這個修正是否合理,避免把錯字也記進去。對常唸到品牌名、英文縮寫、內部代號的工作情境,這層能實際減少事後改字的次數。

六種轉錄引擎,怎麼挑

Input 0 的轉錄層支援六種引擎,對應到十二種可下載的模型。你不需要全部都裝,按需下載即可。README 列出的完整清單,可以對照你的主要語言來挑:

模型體積適合情境
Whisper Large v3 Turbo約 1.5 GB英文或多語混雜,精度高
SenseVoice Small約 228 MB中文為主、兼顧日韓
Paraformer Chinese約 217 MB純中文,推論速度快
Paraformer Trilingual約 234 MB中英粵三語,是少數支援粵語的模型
FireRedASR Large v1約 1.74 GB中文辨識最高精度(CER 約 2%)
Moonshine Base約 274 MB純英文,速度比 Whisper 快約五倍

對大部分中文使用者來說,SenseVoice Small 或 Paraformer Chinese 就夠用,體積小、下載快。如果你常做中英夾雜的技術簡報或文件,Whisper Large v3 Turbo 在多語混合上的精度會比較穩。模型是從 Hugging Face 下載的,如果你所在的網路環境無法順暢連到該平台,這一步會卡住,這是下面要講的幾個門檻之一。

潤色這一層,你要把它當成什麼

LLM 潤色是 Input 0 跟其他語音輸入工具最不一樣的地方,但也是我認為最需要看清楚的一層。它的設定介面接受任何相容 OpenAI 格式的端點:API Key、Base URL、Model 三個欄位填一填,按下 Test Connection 就能驗證連通。預設 Base URL 是 OpenAI,但你可以換成 Azure OpenAI、Groq、或本地端 Ollama。

潤色這一步本身有個本來就存在的取捨,跟我在 SpokenType 評測裡講的是同一件事:「潤色」這一步不是中性清理,而是 AI 改寫你剛說出口的原話。它會把「嗯、啊」拿掉,會把破碎的口語順成書面句,會把口述的「React」這類技術名詞糾正過來,但它輸出的版本,未必等於你實際想表達的那句話。對聊天訊息、草稿、備忘這類可以再改的場合很合用;對會議紀錄、學術訪談、法律陳述、病歷這類要求逐字忠實的場合,反而該把潤色關掉,或退回去用原始轉錄比對。

資料流向是另一條獨立的軸。不設定的話就是接 OpenAI,等於把你剛在本機轉好的文字再送到 OpenAI 的伺服器;接 Groq 就走 Groq;只有接本地 Ollama,整段流程才真的不出 Mac。如果你不想花 OpenAI 的錢但仍接受外送,可以接 FreeLLMAPI 這類把多家免費額度收進同一個端點的閘道(文字一樣會外送給背後的 LLM 服務,只是免費);如果完全不希望文字離開 Mac,唯一的選項是本地 Ollama。重點是:這個選擇是你要做的,不是工具幫你決定的。

Input 0 官方 README 主介面截圖,顯示按住快捷鍵錄音、放開後本機轉錄再貼進任意輸入框的流程Pin
Input 0 主介面:按住快捷鍵錄音、放開後本機轉錄再貼進任意輸入框。

使用前最容易踩到的三個前提

這套工具的設計思路很清楚,但它對硬體、網路與權限都有前提,不是點開就能跑。安裝前最好先把下面三件事想清楚。

  • 模型下載的網路前提:本機模型是從 Hugging Face 拉下來的。如果你所在的網路環境連 Hugging Face 不順,模型下載這一步會直接卡住。這不是工具的問題,但會實際影響你能不能用得起來,README 的 Troubleshooting 段也把「模型下載失敗」列為第一個常見問題。
  • Apple Silicon 的硬體前提:官方建議在 M 系列晶片的 Mac 上跑,因為轉錄引擎走 Metal GPU 加速。Intel 晶片的 Mac 理論上能跑,但速度與發熱表現會打折扣。系統最低要求是 macOS 11.0 以上,而官方釋出的安裝包只有 Apple Silicon 版本。
  • 授權前先問自己一個問題:要把潤色後的文字貼進別的 App,Input 0 需要你授予 macOS 的輔助使用權限(Accessibility),讓它能模擬 Cmd+V。這個權限等於讓一個 App 能控制其他 App 的輸入,是 macOS 上較敏感的一類權限,授權前要想清楚你信任這個原始碼公開的專案到什麼程度。此外它也需要麥克風權限才能錄音,這兩項都要在系統設定裡手動開啟。

授權是 CC BY-NC 4.0,不是標準開源

這部分的關鍵在 LICENSE 檔案內容,而不是 GitHub 上找得到原始碼這件事。Input 0 的 LICENSE 檔案寫的是 Creative Commons Attribution-NonCommercial 4.0 International,也就是 CC BY-NC 4.0。GitHub API 回傳的 SPDX 是 NOASSERTION,意思是它不是 OSI 認可的標準開源授權,而是一個允許你分享與改作、但禁止商業使用的條款。

這對個人學習、非營利研究、自己日常使用沒有影響,但如果你想把它放進一個會產生營收的產品流程裡長期使用,或包進商業服務交付給客戶,這條授權就會構成實質限制。判斷時不要只看「GitHub 上找得到原始碼」,要看實際的 LICENSE 內容。這跟 Agent Battery 那種連 LICENSE 檔都沒有的「原始碼公開但保留所有權利」是不同級別,但同樣需要你動手核對授權邊界。

Input 0 官方網站 input0.com 首頁,主打本機語音轉文字與 LLM 潤色的 macOS 工具Pin
Input 0 官方網站 input0.com:主打本機語音轉文字與可選的 LLM 潤色。

跟 OpenLess、SpokenType 比起來,它站在哪個位置

語音輸入這個分類,TechMoon 已經寫過兩篇可以對照的工具,Input 0 剛好補上第三種路線。把它們擺在一起看,差異比規格表更清楚。

  • OpenLess:Rust 加 Tauri 的開源語音輸入工具,MIT 授權,原始碼可以自由商業使用。它的開箱語音識別走的是 Volcengine(字節跳動)的雲端串流 ASR,預設 LLM 是 DeepSeek 雲端。要本機優先得自己切換到內建的 Qwen3-ASR 與本地模型。差別在於:OpenLess 一裝好就幫你把雲端服務接好,你方便但資料外送;Input 0 預設本機轉錄,潤色才外送。
  • SpokenType:覆蓋 Mac、Windows、Android 的閉源商業訂閱工具,本地與雲端雙模式 ASR,潤色用十幾家第三方服務商,自帶 API。它的整合度最高(潤色、翻譯、回覆草稿一把罩),但你無法審計資料流向,只能仰賴官網隱私政策。差別在於:SpokenType 是閉源全方位助理,Input 0 是原始碼公開、單一功能、你自己決定資料往哪送。
  • Input 0:CC BY-NC 4.0(非商用)、macOS 限定、本機轉錄為主、潤色端點自選。它的差異化在最後這一條:你填的 Base URL,決定了你的文字會經過誰的手。

這三條路線對應三種不同的信任假設。OpenLess 著眼的是方便,裝好就接好雲端、MIT 授權可商用;SpokenType 走的是整合度,閉源全方位、訂閱制;Input 0 把「轉錄留在本機、潤色端點自選」當成預設值。如果你對語音離開裝置這件事特別在意,Input 0 的初始設定最貼近你;如果你要的是開箱即用的全方位整理,SpokenType 或 OpenLess 會順手得多;如果你想把它接進自己的產品流程商用,那麼 OpenLess 的 MIT 授權是三者中唯一明確允許的。

一個容易被忽略的細節:三者的潤色其實是同一類風險,只是包裝不同。SpokenType 把潤色綁在自家 App 與第三方服務商的協議裡,你看到的只有隱私政策的一句描述;OpenLess 一啟動就把潤色送往 DeepSeek 雲端,你可以切換但預設不是本機;Input 0 把這個選擇權直接交到你手上,你填的 Base URL 就是你的資料流向邊界。換句話說,潤色會不會外送、送往哪一家,這三款工具的答案其實都取決於你的設定,差別在於預設值與透明度。

什麼人適合動手裝這套

把上面幾件事疊起來看,Input 0 比較適合這樣的讀者:你是 M 系列 Mac 使用者,平常要打大量郵件、訊息、技術文件或會議草稿,常常夾雜中英文與專有名詞,對「語音交給雲端服務處理」這件事有顧忌,而且願意花一個下午下載模型、設定 LLM 端點、配置輔助使用權限。

反過來說,如果你只是偶爾想用語音發個短訊息,不想自己挑模型、不想管 API Key、也不想授予輔助使用權限,那系統內建聽寫或 SpokenType 這類開箱即用的方案會更省事。Input 0 的價值建立在「你願意動手設定,換來一條你看得見邊界的資料流向」這件事上,這個前提不成立,它對你的吸引力就會打折。

把它放回它真正經得起檢驗的用途

Input 0 走的是一條很收斂的路:把語音轉成文字這一步留在你的 Mac 上,再把要不要讓 LLM 整理、要交給哪家 LLM,留給你自己選。你為此要自己處理模型下載、API 設定、輔助使用權限三件事,換來的是每段流程的資料流向都攤在你面前,而不是被封裝在某個你不能審計的服務裡。

判斷它適不適合你,可以收斂成一條問題:你願不願意為了「轉錄留在本機」這個出廠設定,去承擔 CC BY-NC 4.0 的非商用限制、模型下載的網路前提、Apple Silicon 的硬體建議,以及授予一個能控制其他 App 的輔助使用權限。如果你的工作內容涉及大量機密口述、對雲端語音服務有政策或合規限制,又願意自己挑模型、設 API、管權限,這個取捨很可能值得;如果你只是想順順地說話變文字,不想碰這些設定細節,那別的路線會更適合你。

如果你想把這種「本地 AI 接外部資料源」的設計再推一步,讓 AI 直接讀飛書上的中文公開教學,可以看 飛搜 FeiSou 把飛書公開文件做成 API 的第三方搜尋引擎,它跟 Input 0 是同一類「兩層資料流向拆解」的工具。

Sliven 褚崇名
Sliven 褚崇名

每日分享科技新知、免費資源以及 WordPress、虛擬主機相關主題,任何問題歡迎在科技月球下方留言,或是發送 Email 至 [email protected] 與我聯繫。

文章: 630

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


目錄
Share to...