Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124

AirTranslate 是一款 Apache-2.0 開源的 macOS 工具(github.com/himomohi/AirTranslate,Swift,343 顆星),用蘋果 ScreenCaptureKit 直接截系統音訊,把外語影片、直播與跨國會議的聲音即時轉成懸浮的雙語字幕,省掉麥克風收音失真與 BlackHole 虛擬聲卡的設定麻煩。預設 Apple 模式在本機跑、免費不用 API Key;需要更高品質再切 GPT 模式用自有 OpenAI Key,但音訊會上雲。它要求 macOS 26.0 以上,轉寫僅供快速理解大意、非逐字精確紀錄。
用 AI 摘要這篇文章:
AirTranslate 是一款 macOS 的開源即時音訊轉寫與翻譯工具(github.com/himomohi/AirTranslate,Apache-2.0 授權,343 顆星,Swift),它會直接抓取 Mac 正在播放的系統音訊,把會議、影片或直播裡的聲音,即時變成疊在畫面上的懸浮雙語字幕,也能同時輸出原文轉寫與翻譯文字。它最有價值的一點,是你不必再把聲音從喇叭放出來、再用麥克風收音,也不必像以前那樣為了截系統音訊去安裝 BlackHole 這類虛擬聲卡、折騰音訊繞路。要先講清楚兩個前提:它要求 macOS 26.0 以上,舊版系統裝不起來;而且它分成 Apple 與 GPT 兩種模式,前者完全在本機跑、後者會把音訊送到 OpenAI,兩者的隱私邊界差很多。
一句話結論:AirTranslate 用蘋果底層的 ScreenCaptureKit 直接截 Mac 系統音訊,省掉虛擬聲卡這層麻煩,把外語影片與跨國會議變成可即時對照的雙語懸浮字幕。預設的 Apple 模式在本機跑、不用 API Key、不花錢;需要更高翻譯品質時再切 GPT 模式、用你自己的 OpenAI Key,但這時音訊會離開你的電腦。它適合常在 Mac 上接觸外語音訊、又不想折騰聲卡的人,但只跑得在 macOS 26.0 以上。
目錄
在 AirTranslate 之前,想讓 Mac 即時翻譯正在播放的聲音,大概只有兩條不太理想的路。一條是用麥克風去收音,但麥克風收的是喇叭放出來的聲音,會混進環境噪音與多餘反射聲,音質一差,後面的辨識與翻譯就全歪了。另一條是裝 BlackHole 這類虛擬聲卡,把系統音訊在內部繞一圈截下來,技術上可行,但設定過程牽涉到音訊裝置、通道與權限,對多數人來說門檻不低。
AirTranslate 的做法是用蘋果的 ScreenCaptureKit 直接在系統內部抓音訊流,等於跳過了麥克風收音與虛擬聲卡這兩層。實際使用時,你會拿到一個懸浮的字幕視窗,可以邊開會、邊看影片,邊對照原文與翻譯,不必切換視窗,也不必忍受麥克風收音的失真。這個「直接截系統音訊」的能力,是它跟一般 Mac 翻譯工具最根本的差別,前者處理的是你打字進去的文字,它處理的是 Mac 正在發出的聲音。

從訊號鏈看就更清楚為什麼這件事重要。麥克風收音等於讓聲音先經過喇叭、穿過空氣、再被麥克風撿起,這一路上每個環節都會掉資訊,環境噪音、風聲、鍵盤聲全都會混進去,辨識率自然跟著下滑。虛擬聲卡雖然能避開這些,卻得在系統裡多建一台虛擬音訊裝置,還要設定哪些應用程式的聲音要繞進去,設定一錯不是沒聲音就是抓不到。AirTranslate 直接從系統那一端截數位音訊流,訊號跟 Mac 實際播放的內容一致,沒有經過空氣與麥克風的耗損,這也是它轉寫品質能比麥克風方案穩的根本原因。
實際用的時候大概是這樣:開一場全英文的跨國視訊會議,對方語速快又帶口音,你打開 AirTranslate、選 Apple 模式,會議一開始螢幕角落就浮出雙語字幕,跟著對方的發言即時更新,你不必切到別的視窗就能抓住重點。這種字幕直接疊在你正在做的事上面的體驗,是它跟傳統翻譯工具很不一樣的地方。

AirTranslate 把翻譯品質與成本的選擇權交給你,內建兩種工作模式,這也是使用前最該先搞清楚的一個決定。
| 比較項目 | Apple 模式(預設) | GPT 模式 |
|---|---|---|
| 運作方式 | 呼叫 macOS 內建的語音辨識與翻譯框架 | 用你自己的 OpenAI API Key,走 OpenAI Realtime 模型 |
| 費用 | 免費 | 依 OpenAI 用量計費 |
| 資料流向 | 主要在本機處理 | 音訊會送出到 OpenAI |
| 翻譯品質 | 基礎夠用,應付一般情境 | 較能處理長句、口語與專業會議 |
| 語言支援 | 視你 macOS 下載的語言包而定 | 視 OpenAI 模型支援範圍而定 |
預設的 Apple 模式是大多數人可以先試的選擇,它完全跑在你這台 Mac 上,不用申請 OpenAI、不花錢,門檻最低。如果你常碰專業外語會議、長段口語,或對流暢度要求更高,再切到 GPT 模式,填入自己的 OpenAI API Key。這把 Key 會存進 macOS 的鑰匙串,不會被寫死在程式裡或跟著安裝包到處跑,但只要開了 GPT 模式,音訊就會經過 OpenAI 的伺服器,相對應的呼叫成本與資料流向也得自己承擔。所以選哪個模式,本質上是在「免費、隱私留在本機、品質基礎」與「付費、音訊上雲、品質較好」之間取捨。

延續上一段,模式選擇其實直接決定了你的音訊會流到哪裡,而這件事在會議場景特別敏感。Apple 模式偏向本機處理,聲音大致不出你的電腦;GPT 模式則因為要呼叫 OpenAI,會議裡的語音內容會離開你的裝置,交給第三方處理。
GPT 模式可以用,但邊界要先想清楚。如果會議涉及公司機密或客戶資料,開 GPT 模式前先確認這段音訊適合讓它經過 OpenAI,以及對方的資料政策符合你的合規要求。相對來說,如果只是看一段公開的英文教學影片或聽一集外語播客,用 GPT 模式換更好的翻譯就沒什麼好顧慮。把「這段音訊能不能上雲」當成開 GPT 模式前的固定檢查,會比單純追求翻譯品質更穩當。

AirTranslate 用起來省事,但要先花點時間把權限和預期設好,有兩件事先搞清楚會順很多。
能不能用,取決於系統版本與第一次的權限。它只跑在 macOS 26.0 以上,因為它呼叫的音訊擷取與語音辨識 API 是蘋果在較新系統才開放的,舊版系統連這些 API 都叫不起來,先確認系統版本再裝會比較實際。第一次執行時,系統會陸續要求螢幕錄製、系統音訊錄製與語音辨識三項權限;其中螢幕錄製會跳提示,是因為音訊擷取走的是 ScreenCaptureKit 這個管道,過程中不會真的產生畫面錄製檔,但那道授權彈窗第一次就是會出現,照常授予即可。
用得多好,取決於你對翻譯品質的預期。即時轉寫的本質限制還在:音訊品質、語速和口音都會影響準確率,日常閒聊跟得上有餘,但遇到專有名詞密集的技術簡報、口音重或多人同時發言的場合,字幕出現偏差是常態。它適合用來快速抓大意,沒辦法當成逐字稿,把這個期待設對,才不會用得失望。
至於什麼時候值得從 Apple 模式升到 GPT 模式,一個簡單的判斷是看「聽不懂的成本有多高」。如果只是一般教學影片或播客,Apple 模式抓到大意通常就夠了,沒必要為了幾個百分點的翻譯品質去付 API 費用、還把音訊送上雲。但如果是客戶會議、技術評審這種聽漏一句可能就誤判需求的場合,用 GPT 模式換更可靠的長句與口語翻譯,那點 API 成本通常划算,前提是這段音訊本來就能讓它離開你的電腦。
AirTranslate 真正幫得上忙的,是那種「聽漏一句成本很高」、或臨時需要救火的人。例如每天要跟海外團隊開 standup 的開發者,在 Twitch 或 YouTube 上追海外技術直播、想即時看懂重點的人,或是臨時收到一支需要盡快消化的外語授課影片的學生。它平常不必掛著,屬於需要時才叫出來的即時輔助;真碰上聽不懂、又懶得為了一支影片去架虛擬聲卡的時候,它的價值最明顯,省下的就是那一段設定與收音折騰。
它不適合兩種情況。一是你的 Mac 還在舊版系統、升不上 macOS 26.0,那這工具直接與你無緣。二是你要的根本不是音訊翻譯:把現成的影片檔加上字幕檔,比較接近 MioSub 這類做影片字幕的工具;把畫面上的文字原地翻譯,是 WinLens 那種螢幕覆蓋翻譯;把自己打字進去的段落翻成別的語言,屬於 GPT 翻譯工具 的範疇;想把說出口的話直接轉成文字輸入到文件,則是 OpenLess 那類語音輸入工具。AirTranslate 處理的是「Mac 正在播放的聲音」,這個邊界畫清楚,才不會用錯地方。
AirTranslate 要付費嗎? 不用,它是 Apache-2.0 開源工具。Apple 模式全程在本機跑、零成本;只有你主動開 GPT 模式時,才會依 OpenAI 用量計費。
兩種模式能翻的語言差在哪? 機制不同。Apple 模式能翻哪些語言,完全看你 macOS 裝了哪些語言包,常見的英、日、韓常常得自己先補下載。冷門語種就別太指望它,那是 GPT 模式才比較齊全的領域,需要小語種時直接靠 GPT 模式會穩得多。
不接 OpenAI 能用嗎? 可以。預設全程走蘋果自家的語音辨識與翻譯框架,連網都不一定需要;OpenAI 只在你主動切到 GPT 模式時才登場,那時才需要填 API Key。
轉寫內容會存在哪裡? 會以普通的 .txt 文字檔落在 Mac 本機的 Application Support 目錄,能在程式裡直接管理。不過它不是加密儲存,敏感的會議或客戶內容,建議當下處理完就清掉,別長期留在本機。
它能取代視訊會議軟體自帶的字幕嗎? 兩者來源不同,不能直接畫等號。會議軟體的字幕走它自己的語音處理流程,AirTranslate 則是從系統音訊側截取。AirTranslate 的優點是跨應用通用,同一套字幕能同時用在會議、瀏覽器影片和本機影片上。
1. 先確認你的 Mac 是 macOS 26.0 以上,再到 AirTranslate 的 GitHub 專案頁下載編譯好的發布版本,第一次執行時照提示授予螢幕錄製、系統音訊錄製與語音辨識權限。
2. 從預設的 Apple 模式開始用,播一段你熟悉的外語影片測試轉寫與翻譯品質,確認雙語懸浮字幕的閱讀節奏適合你。
3. 只有在 Apple 模式不夠用、你又確認音訊可以上雲時,才切到 GPT 模式並填入自己的 OpenAI API Key,讓長句、口語與專業簡報的辨識更跟得上。
記住,AirTranslate 幫你省下的是「截系統音訊」這道折騰,但它給的是即時大意輔助,不是逐字精確紀錄;真正需要一字不差的會議紀錄,還是要仰賴原始音訊與人工整理。