WhisperDesktop 語音轉文字 AI 影片字幕

「 WhisperDesktop 」操作教學:

首先,我們來到「 WhisperDesktop 」的 GitHub 頁面,你可以在右方的「 Releases 」區域,找到最新版軟體的下載位址。

點進去後,我們可以下載「WhisperDesktop.zip」這個 Windows 上的免安裝軟體版本。

下載後解壓縮,直接執行裡面的「WhisperDesktop」,這時候會要求你去下載一個 Whisper 運算模型檔案(下載 Whisper 模型,有很多選擇,但開發者建議可以下載「 ggml-medium.bin 」這個版本。我實際測試,可以有兩種選擇:

  • 「 ggml-medium.bin 」:建議有獨立顯示卡的電腦使用。檔案大約 1.53 GB ,運算時會比較花費 GPU 資源,如果你的電腦沒有獨立顯示卡,可能要運算比較久。
  • 「ggml-small.bin 」:建議沒有獨立顯示卡的輕薄筆電使用。檔案大約 488 MB ,相對來說適合沒有獨立顯示卡的輕薄筆電,運算時間會大幅縮短,但轉換出來的文字也依然不錯。

接著,讓「WhisperDesktop」載入我們選擇的運算模型,按下 OK 。

進入到正式準備語音轉文字的畫面,我們依序完成下面步驟,按下「 Transcribe 」即可:

  • 選擇要轉出的語言,中文可以輸出成繁體中文。
  • 選擇來源檔案。
  • 設定要輸出的檔案格式。
  • 設定要輸出的文字檔案名稱。

下面就是「WhisperDesktop」轉換一段大約 6 分多鐘 MP4 影片的結果。(使用「 ggml-medium.bin 」比較大型的運算模型)

當然裡面不是 100% 正確,但是出錯的地方都可以接受,例如他理所當然不知道我的「 esor 」這個特殊字是什麼意思。

而整體上無論時間戳記、分段方式、語句通順度都不錯,甚至一段話中也會加上適度的標點符號,讓我們手動微調的時間減到最少

 

「 WhisperDesktop 」的運算時間快不快?

「WhisperDesktop」的效果無庸置疑, Whisper AI 語音轉文字技術確實厲害。但是,這是一個本機軟體,使用自己電腦中的 GPU 來運算,這樣會不會很慢呢?讓我實際測試幾種情況給大家看。

每次運算完成,「WhisperDesktop」會提供這次運算的時間給我們參考。下面這張圖,是我用一台有獨立顯示卡(GTX 1060)的筆電(6年前購買的,目前還在使用)來測試。

在擁有獨立顯示卡的電腦上,前述那段 6 分多鐘的影片,利用「 ggml-medium.bin 」這個比較大的運算模型,轉成文字檔案的時間大約是 1 分鐘 25 秒,完全可以接受。而如果擁有更新、更好的獨立顯示卡的筆電、電腦的朋友,運算時間一定可以比我快上許多。

但是,如果你的筆電沒有內建獨立顯示卡呢?

例如我去年購買了 Surface Pro 9 (這幾年喜歡這樣的觸控螢幕輕薄筆電),沒有獨立顯示卡,但是當然還是有顯示晶片可以運算,這時候的效能如何呢?

結果如下圖,雖然是更新的筆電,平常跑其他文書、網頁更快,但一旦碰上需要顯示卡運算時,就有明顯的速度差距。

在沒有獨立顯示卡的新筆電上,如果我上述 6 分多鐘的影片,利用「 ggml-medium.bin 」這個比較大的運算模型,跑了 28 分鐘才產出結果

所以我在 Surface 輕薄筆電上趕快換成「ggml-small.bin 」這個小型的運算模型,這時候,一段 6 分鐘的影片,在沒有獨立顯示卡的筆電上,也「只需要」 10 分鐘左右來完成。

雖然不夠快,但可以接受。

而且,粗看下來,用大型運算模型、小型運算模型,在這個 6 分鐘影片的例子上,看不出明顯差別。

下面是「ggml-small.bin 」算出來的結果。

 

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *