MioSub 開源 AI 字幕工具:轉錄、翻譯、對齊、壓制一條龍,貼連結就出片

MioSub 是 AGPL-3.0 開源的桌面端 AI 字幕工具(React+Electron+TypeScript,GitHub 約 740 顆星),把影片下載、Whisper 轉錄、Gemini 翻譯(百種語言互譯)、CTC 時間軸對齊、說話人標註、雙語字幕匯出與字幕壓制全收進一個流程,貼連結即可全自動出片,也支援純音訊(podcast、有聲書)。內建所見即所得字幕編輯器,能邊看邊改、即時預覽。要留意它需要自備 Gemini 等 API 金鑰(雲端計費),非完全離線免費。適合常做影片字幕、多語翻譯或聽打的內容工作者。

用 AI 摘要這篇文章:

MioSub 是一套開源的桌面端 AI 字幕工具,主打「貼上連結、等它跑完,回來收成品」的全自動流程,把轉錄到壓製成片串成一條龍,中途不必你在好幾個工具之間來回切換。專案在 GitHub 有七百多顆星,AGPL-3.0 授權,用 React、Electron 與 TypeScript 寫成,有官方示範站可以線上試用。它的前身叫 Gemini-Subtitle-Pro,後來改名 MioSub、擴充成更完整的一條龍字幕工作流。

MioSub 字幕編輯器主介面,顯示專案檔案、影片預覽、字幕行、匯出字幕與壓制影片按鈕Pin
MioSub 的字幕編輯器主介面,可看到專案檔案、影片預覽、字幕行、匯出字幕與壓制影片入口(圖片來源:MioSub 官方網站 miosub.app)。

TL;DR:MioSub(GitHub 約 740 顆星,AGPL-3.0 開源,React 19+Electron 39+TypeScript,2025 年 11 月開張、2026 年 6 月初仍活躍更新,release v3.1.7)是一套桌面端 AI 字幕工具,把下載、轉錄、翻譯、對齊、壓製串成一條全自動流程,貼連結即可出片,也支援純音訊(podcast、有聲書)與雙語字幕匯出。它內建所見即所得的字幕編輯器,能邊看邊改、即時預覽。要留意它需要你自備 Gemini 等 API 金鑰(雲端呼叫計費),不是完全離線免費。適合常做影片字幕、多語翻譯或聽打的內容工作者。

跟傳統字幕工具差在哪

傳統做字幕的整個流程很碎:先找工具把影片轉錄成文字,再拿翻譯工具譯成目標語言,然後手動對時間軸、校對術語,最後另找軟體把字幕壓進影片。每一段換一個工具,中間還要不斷來回搬檔案。MioSub 想解決的就是這種割裂,它把整條流程串起來,你只要貼上影片或音訊連結,它就一路做到成片。

它和〈GPT 翻譯工具〉那類純翻譯工具的差別在於「翻譯只是其中一環」:MioSub 先轉錄、再翻譯,而且翻譯時會帶著前後文與自動提取的術語表一起處理,譯出來的字幕比逐句機翻通順。它也與剛介紹過的〈OpenLess〉語音輸入工具形成互補,OpenLess 是把你「說的話」即時變文字,MioSub 則是把「已經錄好的影片或音訊」整段轉成字幕,一個即時、一個事後批處理,各有各的場景。把幾種做字幕的方式擺在一起比較,定位更清楚:

方式流程整合時間軸對齊多語翻譯適合場景
MioSub一條龍全自動毫秒級(CTC)百種語言常做字幕的創作者
傳統多工具拼湊手動切換搬檔手動對軸另找翻譯工具零星需求
單一轉錄工具只轉錄粗略時間戳只要文字稿

和剪映、必剪(CapCut)這類內建自動字幕的短影音剪輯器相比,MioSub 走的是另一條路。剪映、必剪是完整的影片剪輯器,自動字幕只是附帶功能,翻譯多半限於少數語言、也不開源;MioSub 則把全部力氣放在字幕這一條流程上,翻譯靠 Gemini 支援上百種語言、時間軸對齊做到毫秒級、還能匯出雙語字幕。若你的需求是「把一支長影片配上高品質多語字幕」,MioSub 在字幕這一環比剪映那類工具深入得多;若你需要的是完整剪輯,那剪映仍是更全面的選擇,兩者其實是分工而非替代。

一條龍:轉錄、翻譯、對齊、壓制

MioSub 的核心是那條自動化流水線。轉錄用 Whisper 把語音轉成文字,翻譯走 Gemini API、支援一百多種語言互譯,時間軸對齊則靠內建的 CTC 對齊器做到毫秒級精度,不必再外接其他對齊工具,這也是它從舊版 Gemini-Subtitle-Pro 升級到 v3 時補上的關鍵一塊。對於多人對話的內容,它能自動標註說話人,讓字幕不會把兩個人的話混在一起;過程中還會自動提取專有名詞與術語,減少翻譯前後不一致的問題。

跑完這條線,你可以選擇匯出 SRT、ASS 字幕檔,或匯出雙語字幕(原文加譯文並列),也能一鍵把字幕直接壓製(hardcode)進影片,輸出帶字幕的成片。官方宣稱的效率參考是三十分鐘的影片大約八分鐘跑完(實際速度會依你用雲端或本機轉錄、以及硬體而浮動),對習慣外包字幕的創作者來說,這個速度能省下可觀的等待與往返時間。

不只是影片,純音訊也行

很多字幕工具預設只吃影片檔,MioSub 則把純音訊也納入處理範圍。這對做 podcast、廣播電台節目、有聲書的人很實用,你不必為了出文字稿而先把音訊配上空白畫面轉成影片,直接餵音訊檔進去,它就能轉錄、翻譯、輸出字幕或文字稿。

純音訊的應用場景比想像中廣。訪談節目主持人可以把一個小時的錄音交給它,產出帶說話人標註的完整文字稿,方便剪輯時找段落、或整理成文章發布;做有聲書的人能批次把整本書的音訊轉成文字,再人工校對成電子書稿;企業內部的會議錄音、教育訓練音檔,也能用它快速出一份會議紀錄或多語摘要。這些過去要不是外包給聽打人員、就是自己戴耳機逐句敲的活,現在多了自動化的選項,把人力留在最需要判斷的最終校閱階段,整體產能會明顯提升。

輸出端它也照顧到中日文這類字元較多的語言,內建 NotoSans 字型來避免缺字或顯示成方塊,壓製出來的成片在不同裝置上看起來比較一致。對做跨語言內容、需要把同一份素材同時出中文字幕和英文字幕的人,這套雙語匯出加上多語介面(中、英、日)的設計,省下了不少後製手工,整體產出效率會跟著提升。

編輯器與雙語字幕

不過全自動不代表完全不能插手。MioSub 內建一個所見即所得的字幕編輯器,自動跑完的結果你可以邊看影片邊修改,字幕的呈現效果即時預覽,改完再重新壓製。這對轉錄偶爾出錯、或想把口語化的句子改通順的人來說是必要的逃生口,AI 轉錄再準,專有名詞和特殊用語還是有機會出錯,能直接進編輯器修比重新跑一遍省事。

MioSub 字幕編輯器畫面,影片預覽區與可修改的字幕行並排呈現Pin
MioSub 的字幕編輯器,可邊看影片邊修改字幕並即時預覽(圖片來源:MioSub 官方網站 miosub.app)。

說話人標註與術語自動提取,是它對「長內容」特別有價值的兩個能力。做訪談節目或多人 podcast 時,傳統轉錄常常把兩個人的話黏成一段、分不清誰說的;MioSub 的說話人分離(diarization)會自動標註發言者,字幕讀起來才有對話的層次。術語提取則是它會掃出影片裡反覆出現的專有名詞、建立一份小詞彙表,翻譯時統一套用,這對一小時的課程、技術教學這類術語密集的內容尤其重要,否則觀眾會被同一個詞的五花八門譯法搞糊塗。這兩項加上毫秒級時間軸對齊,是它「成品品質」能拉開和普通轉錄工具差距的地方。

雙語字幕的匯出是它對教學與跨語內容特別友善的一塊。你可以同時保留原文和譯文,輸出後觀眾能對照著看,對語言學習、或給外籍觀眾搭配母語理解的影片都很合適。加上它支援 SRT 與 ASS 兩種主流格式匯入匯出,要接進既有流程 或丟給其他後製工具〈像壓縮、轉檔這類處理〉也相容。

雙語字幕在實務上的價值比單語字幕高一截。做語言教學頻道的人,可以一次產出「原文在上、譯文在下」的字幕,讓學習者邊聽邊對照,吸收效率比純外語字幕好得多;企業做跨國內部訓練影片時,雙語字幕讓不同母語的員工都能看懂,不必為每個語言各做一版。MioSub 把這件事做成匯出選項之一,而不是要你跑兩遍流程再手動合併,對需要同時服務多語觀眾的內容來說,這是一個能直接省下重複工期的設計。

MioSub 官方示範站設定畫面,顯示雙語字幕與僅譯文輸出選項Pin
MioSub 的輸出設定可切換雙語字幕或僅譯文模式(圖片來源:MioSub 官方示範站 demo.miosub.app)。

要留意的點:需要 Gemini 等 API 金鑰

誠實講一個使用前提:MioSub 的翻譯走 Gemini API,轉錄也可能用到雲端或本機模型,這意味著它不是裝了就能完全離線免費跑。你需要自備 Gemini(或其他支援的)API 金鑰,雲端呼叫會按用量計費;若想完全本機、不花 API 費用,則要看它支援的本機轉錄方案與你的硬體夠不夠力。

MioSub 官方示範站設定畫面,顯示 Gemini API 金鑰、Gemini 端點、OpenAI API 金鑰與 OpenAI 端點欄位Pin
MioSub 的服務設定頁可填入 Gemini 與 OpenAI API 金鑰,搭配不同轉錄與翻譯流程使用(圖片來源:MioSub 官方示範站 demo.miosub.app)。

所以它的「免費」指的是軟體本身開源、不必付軟體授權費,背後的 AI 算力成本還是會落在你看得到的地方,接雲端 API 就照供應商計費,接本機模型就吃你機器的 GPU 與記憶體。對已經有 Gemini API 額度、或本機有夠力顯卡的人,這個門檻不算高;對完全不想碰 API 金鑰的人,就得先評估自己能不能接受這層設定。

成本上也可以稍微盤一下。Gemini API 目前有免費額度可試用,量小的創作者初期幾乎不用花錢就能跑通;量大之後才需要留意每月的 API 帳單,而長影片的轉錄與翻譯會比短影片吃更多運算量。另一條路是轉錄改走本機 Whisper、只讓翻譯走雲端,能壓低一部分成本,前提是本機要有一定的運算資源。也就是說,MioSub 把「軟體免費、算力自付」講得很清楚,沒有把雲端成本藏起來,使用者可以依自己的產量和預算挑選最划算的組合。

授權方面也要留意一下。MioSub 是 AGPL-3.0,個人學習或一般內容創作使用通常沒有顧慮;但如果你打算修改它的原始碼、再對外提供成一個網路服務,或整合進自家的商業產品,就得先核對 AGPL 對「網路可存取服務須公開原始碼」的要求。純粹自己用、或原封不動部署則不在這個範圍,判斷標準和之前介紹過的幾個 AGPL 工具一樣:會不會改、會不會對外開放存取。

誰適合用

MioSub 最對口的是常做影片或音訊字幕的內容工作者:YouTuber、線上課程製作者、podcast 主持人、多語內容團隊,尤其是需要把中文內容譯成英文、或反過來把外語影片配上中文字幕的人。它把一段原本要拆給好幾個工具、來回搬檔案的流程收進一個桌面應用,省下的是反覆切換與等待的時間。

具體的工作流程可以這樣想像一下:你想給一支英文教學影片配上中文字幕,把連結貼進 MioSub,設定目標語言為繁體中文,按下開始;幾分鐘後回來,它已經完成下載、轉錄、翻譯、對齊與說話人標註,你可以進編輯器快速掃一遍、修正少數轉錄或翻譯不順的地方,再一鍵壓製成帶中文字幕的成片。整段下來,原本可能要花一兩個小時在多個工具間搬移、手動對軸的活,被壓縮成一次貼連結加一次校閱。對每週都要產出帶字幕影片的人,這個效率差距會很明顯地累積。

它不適合完全不願意設定 API 金鑰、或追求一鍵完全離線免費的人,那種需求,純本機的 Whisper 轉錄工具會更省事。但若你能接受自備 API 金鑰、又想一次搞定轉錄到壓製的整條字幕流程,MioSub 把這件事做到了相當完整的程度,是開源陣營裡少數把「下載到成片」整段串起來的選擇。它提供 Windows 與 macOS 的桌面版,使用上就是裝好、填入 Gemini 等 API 金鑰、貼上影片或音訊連結(支援的平台以官方說明為準)就能開始跑。想試用可以到 官方示範站操作,或從 GitHub release 頁下載桌面版。

Sliven 褚崇名
Sliven 褚崇名

每日分享科技新知、免費資源以及 WordPress、虛擬主機相關主題,任何問題歡迎在科技月球下方留言,或是發送 Email 至 [email protected] 與我聯繫。

文章: 696

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


目錄
Share to...