AirTranslate 開源工具:直接截 Mac 系統音訊做即時雙語字幕,外語影片與跨國會議免裝虛擬聲卡

AirTranslate 是一款 Apache-2.0 開源的 macOS 工具(github.com/himomohi/AirTranslate,Swift,343 顆星),用蘋果 ScreenCaptureKit 直接截系統音訊,把外語影片、直播與跨國會議的聲音即時轉成懸浮的雙語字幕,省掉麥克風收音失真與 BlackHole 虛擬聲卡的設定麻煩。預設 Apple 模式在本機跑、免費不用 API Key;需要更高品質再切 GPT 模式用自有 OpenAI Key,但音訊會上雲。它要求 macOS 26.0 以上,轉寫僅供快速理解大意、非逐字精確紀錄。

用 AI 摘要這篇文章:

AirTranslate 是一款 macOS 的開源即時音訊轉寫與翻譯工具(github.com/himomohi/AirTranslate,Apache-2.0 授權,343 顆星,Swift),它會直接抓取 Mac 正在播放的系統音訊,把會議、影片或直播裡的聲音,即時變成疊在畫面上的懸浮雙語字幕,也能同時輸出原文轉寫與翻譯文字。它最有價值的一點,是你不必再把聲音從喇叭放出來、再用麥克風收音,也不必像以前那樣為了截系統音訊去安裝 BlackHole 這類虛擬聲卡、折騰音訊繞路。要先講清楚兩個前提:它要求 macOS 26.0 以上,舊版系統裝不起來;而且它分成 Apple 與 GPT 兩種模式,前者完全在本機跑、後者會把音訊送到 OpenAI,兩者的隱私邊界差很多。

一句話結論:AirTranslate 用蘋果底層的 ScreenCaptureKit 直接截 Mac 系統音訊,省掉虛擬聲卡這層麻煩,把外語影片與跨國會議變成可即時對照的雙語懸浮字幕。預設的 Apple 模式在本機跑、不用 API Key、不花錢;需要更高翻譯品質時再切 GPT 模式、用你自己的 OpenAI Key,但這時音訊會離開你的電腦。它適合常在 Mac 上接觸外語音訊、又不想折騰聲卡的人,但只跑得在 macOS 26.0 以上。

它解決的是「麥克風收音」和「虛擬聲卡」這兩個老問題

在 AirTranslate 之前,想讓 Mac 即時翻譯正在播放的聲音,大概只有兩條不太理想的路。一條是用麥克風去收音,但麥克風收的是喇叭放出來的聲音,會混進環境噪音與多餘反射聲,音質一差,後面的辨識與翻譯就全歪了。另一條是裝 BlackHole 這類虛擬聲卡,把系統音訊在內部繞一圈截下來,技術上可行,但設定過程牽涉到音訊裝置、通道與權限,對多數人來說門檻不低。

AirTranslate 的做法是用蘋果的 ScreenCaptureKit 直接在系統內部抓音訊流,等於跳過了麥克風收音與虛擬聲卡這兩層。實際使用時,你會拿到一個懸浮的字幕視窗,可以邊開會、邊看影片,邊對照原文與翻譯,不必切換視窗,也不必忍受麥克風收音的失真。這個「直接截系統音訊」的能力,是它跟一般 Mac 翻譯工具最根本的差別,前者處理的是你打字進去的文字,它處理的是 Mac 正在發出的聲音。

AirTranslate 官方專案頁首頁,標示 Live captions 與即時翻譯、macOS 26+ 開源、Apple 模式預設與選用的 GPT 模式Pin
AirTranslate 官方專案頁首頁,主打把 Mac 正在播放的音訊直接轉成即時字幕與翻譯。(圖片來源:AirTranslate 官方專案頁)。

從訊號鏈看就更清楚為什麼這件事重要。麥克風收音等於讓聲音先經過喇叭、穿過空氣、再被麥克風撿起,這一路上每個環節都會掉資訊,環境噪音、風聲、鍵盤聲全都會混進去,辨識率自然跟著下滑。虛擬聲卡雖然能避開這些,卻得在系統裡多建一台虛擬音訊裝置,還要設定哪些應用程式的聲音要繞進去,設定一錯不是沒聲音就是抓不到。AirTranslate 直接從系統那一端截數位音訊流,訊號跟 Mac 實際播放的內容一致,沒有經過空氣與麥克風的耗損,這也是它轉寫品質能比麥克風方案穩的根本原因。

實際用的時候大概是這樣:開一場全英文的跨國視訊會議,對方語速快又帶口音,你打開 AirTranslate、選 Apple 模式,會議一開始螢幕角落就浮出雙語字幕,跟著對方的發言即時更新,你不必切到別的視窗就能抓住重點。這種字幕直接疊在你正在做的事上面的體驗,是它跟傳統翻譯工具很不一樣的地方。

AirTranslate 官方頁面的工作流程 demo 區塊,展示即時字幕與翻譯的實際運作畫面Pin
官方頁面的工作流程 demo,呈現 AirTranslate 實際跑出來的即時字幕與翻譯畫面。(圖片來源:AirTranslate 官方專案頁)。

一個工具兩種模式:Apple 本地跑,GPT 上雲端

AirTranslate 把翻譯品質與成本的選擇權交給你,內建兩種工作模式,這也是使用前最該先搞清楚的一個決定。

比較項目Apple 模式(預設)GPT 模式
運作方式呼叫 macOS 內建的語音辨識與翻譯框架用你自己的 OpenAI API Key,走 OpenAI Realtime 模型
費用免費依 OpenAI 用量計費
資料流向主要在本機處理音訊會送出到 OpenAI
翻譯品質基礎夠用,應付一般情境較能處理長句、口語與專業會議
語言支援視你 macOS 下載的語言包而定視 OpenAI 模型支援範圍而定

預設的 Apple 模式是大多數人可以先試的選擇,它完全跑在你這台 Mac 上,不用申請 OpenAI、不花錢,門檻最低。如果你常碰專業外語會議、長段口語,或對流暢度要求更高,再切到 GPT 模式,填入自己的 OpenAI API Key。這把 Key 會存進 macOS 的鑰匙串,不會被寫死在程式裡或跟著安裝包到處跑,但只要開了 GPT 模式,音訊就會經過 OpenAI 的伺服器,相對應的呼叫成本與資料流向也得自己承擔。所以選哪個模式,本質上是在「免費、隱私留在本機、品質基礎」與「付費、音訊上雲、品質較好」之間取捨。

AirTranslate 官方頁面的處理模式區塊,呈現 Apple 模式與 GPT 模式的差異Pin
官方頁面的模式區塊,對照 Apple 模式(本機、預設)與 GPT 模式(選用、上雲)的差別。(圖片來源:AirTranslate 官方專案頁)。

隱私這條線,開 GPT 模式前要想清楚

延續上一段,模式選擇其實直接決定了你的音訊會流到哪裡,而這件事在會議場景特別敏感。Apple 模式偏向本機處理,聲音大致不出你的電腦;GPT 模式則因為要呼叫 OpenAI,會議裡的語音內容會離開你的裝置,交給第三方處理。

GPT 模式可以用,但邊界要先想清楚。如果會議涉及公司機密或客戶資料,開 GPT 模式前先確認這段音訊適合讓它經過 OpenAI,以及對方的資料政策符合你的合規要求。相對來說,如果只是看一段公開的英文教學影片或聽一集外語播客,用 GPT 模式換更好的翻譯就沒什麼好顧慮。把「這段音訊能不能上雲」當成開 GPT 模式前的固定檢查,會比單純追求翻譯品質更穩當。

AirTranslate 官方頁面的隱私區塊,說明不內嵌 API Key、Keychain 儲存與純文字歷史紀錄Pin
官方頁面的隱私區塊,強調不內嵌 API Key、Keychain 儲存與純文字歷史紀錄等資料處理方式。(圖片來源:AirTranslate 官方專案頁)。

用之前先建立的兩個預期:能不能用,以及用得多好

AirTranslate 用起來省事,但要先花點時間把權限和預期設好,有兩件事先搞清楚會順很多。

能不能用,取決於系統版本與第一次的權限。它只跑在 macOS 26.0 以上,因為它呼叫的音訊擷取與語音辨識 API 是蘋果在較新系統才開放的,舊版系統連這些 API 都叫不起來,先確認系統版本再裝會比較實際。第一次執行時,系統會陸續要求螢幕錄製、系統音訊錄製與語音辨識三項權限;其中螢幕錄製會跳提示,是因為音訊擷取走的是 ScreenCaptureKit 這個管道,過程中不會真的產生畫面錄製檔,但那道授權彈窗第一次就是會出現,照常授予即可。

用得多好,取決於你對翻譯品質的預期。即時轉寫的本質限制還在:音訊品質、語速和口音都會影響準確率,日常閒聊跟得上有餘,但遇到專有名詞密集的技術簡報、口音重或多人同時發言的場合,字幕出現偏差是常態。它適合用來快速抓大意,沒辦法當成逐字稿,把這個期待設對,才不會用得失望。

至於什麼時候值得從 Apple 模式升到 GPT 模式,一個簡單的判斷是看「聽不懂的成本有多高」。如果只是一般教學影片或播客,Apple 模式抓到大意通常就夠了,沒必要為了幾個百分點的翻譯品質去付 API 費用、還把音訊送上雲。但如果是客戶會議、技術評審這種聽漏一句可能就誤判需求的場合,用 GPT 模式換更可靠的長句與口語翻譯,那點 API 成本通常划算,前提是這段音訊本來就能讓它離開你的電腦。

適合誰,不適合誰

AirTranslate 真正幫得上忙的,是那種「聽漏一句成本很高」、或臨時需要救火的人。例如每天要跟海外團隊開 standup 的開發者,在 Twitch 或 YouTube 上追海外技術直播、想即時看懂重點的人,或是臨時收到一支需要盡快消化的外語授課影片的學生。它平常不必掛著,屬於需要時才叫出來的即時輔助;真碰上聽不懂、又懶得為了一支影片去架虛擬聲卡的時候,它的價值最明顯,省下的就是那一段設定與收音折騰。

它不適合兩種情況。一是你的 Mac 還在舊版系統、升不上 macOS 26.0,那這工具直接與你無緣。二是你要的根本不是音訊翻譯:把現成的影片檔加上字幕檔,比較接近 MioSub 這類做影片字幕的工具;把畫面上的文字原地翻譯,是 WinLens 那種螢幕覆蓋翻譯;把自己打字進去的段落翻成別的語言,屬於 GPT 翻譯工具 的範疇;想把說出口的話直接轉成文字輸入到文件,則是 OpenLess 那類語音輸入工具。AirTranslate 處理的是「Mac 正在播放的聲音」,這個邊界畫清楚,才不會用錯地方。

常見問題

AirTranslate 要付費嗎? 不用,它是 Apache-2.0 開源工具。Apple 模式全程在本機跑、零成本;只有你主動開 GPT 模式時,才會依 OpenAI 用量計費。

兩種模式能翻的語言差在哪? 機制不同。Apple 模式能翻哪些語言,完全看你 macOS 裝了哪些語言包,常見的英、日、韓常常得自己先補下載。冷門語種就別太指望它,那是 GPT 模式才比較齊全的領域,需要小語種時直接靠 GPT 模式會穩得多。

不接 OpenAI 能用嗎? 可以。預設全程走蘋果自家的語音辨識與翻譯框架,連網都不一定需要;OpenAI 只在你主動切到 GPT 模式時才登場,那時才需要填 API Key。

轉寫內容會存在哪裡? 會以普通的 .txt 文字檔落在 Mac 本機的 Application Support 目錄,能在程式裡直接管理。不過它不是加密儲存,敏感的會議或客戶內容,建議當下處理完就清掉,別長期留在本機。

它能取代視訊會議軟體自帶的字幕嗎? 兩者來源不同,不能直接畫等號。會議軟體的字幕走它自己的語音處理流程,AirTranslate 則是從系統音訊側截取。AirTranslate 的優點是跨應用通用,同一套字幕能同時用在會議、瀏覽器影片和本機影片上。

接下來怎麼動手

1. 先確認你的 Mac 是 macOS 26.0 以上,再到 AirTranslate 的 GitHub 專案頁下載編譯好的發布版本,第一次執行時照提示授予螢幕錄製、系統音訊錄製與語音辨識權限。

2. 從預設的 Apple 模式開始用,播一段你熟悉的外語影片測試轉寫與翻譯品質,確認雙語懸浮字幕的閱讀節奏適合你。

3. 只有在 Apple 模式不夠用、你又確認音訊可以上雲時,才切到 GPT 模式並填入自己的 OpenAI API Key,讓長句、口語與專業簡報的辨識更跟得上。

記住,AirTranslate 幫你省下的是「截系統音訊」這道折騰,但它給的是即時大意輔助,不是逐字精確紀錄;真正需要一字不差的會議紀錄,還是要仰賴原始音訊與人工整理。

Sliven 褚崇名
Sliven 褚崇名

每日分享科技新知、免費資源以及 WordPress、虛擬主機相關主題,任何問題歡迎在科技月球下方留言,或是發送 Email 至 [email protected] 與我聯繫。

文章: 609

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


目錄
Share to...