Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
首先,我們來到「 WhisperDesktop 」的 GitHub 頁面,你可以在右方的「 Releases 」區域,找到最新版軟體的下載位址。
點進去後,我們可以下載「WhisperDesktop.zip」這個 Windows 上的免安裝軟體版本。
下載後解壓縮,直接執行裡面的「WhisperDesktop」,這時候會要求你去下載一個 Whisper 運算模型檔案(下載 Whisper 模型),有很多選擇,但開發者建議可以下載「 ggml-medium.bin 」這個版本。我實際測試,可以有兩種選擇:
接著,讓「WhisperDesktop」載入我們選擇的運算模型,按下 OK 。
進入到正式準備語音轉文字的畫面,我們依序完成下面步驟,按下「 Transcribe 」即可:
下面就是「WhisperDesktop」轉換一段大約 6 分多鐘 MP4 影片的結果。(使用「 ggml-medium.bin 」比較大型的運算模型)
當然裡面不是 100% 正確,但是出錯的地方都可以接受,例如他理所當然不知道我的「 esor 」這個特殊字是什麼意思。
而整體上無論時間戳記、分段方式、語句通順度都不錯,甚至一段話中也會加上適度的標點符號,讓我們手動微調的時間減到最少。
「WhisperDesktop」的效果無庸置疑, Whisper AI 語音轉文字技術確實厲害。但是,這是一個本機軟體,使用自己電腦中的 GPU 來運算,這樣會不會很慢呢?讓我實際測試幾種情況給大家看。
每次運算完成,「WhisperDesktop」會提供這次運算的時間給我們參考。下面這張圖,是我用一台有獨立顯示卡(GTX 1060)的筆電(6年前購買的,目前還在使用)來測試。
在擁有獨立顯示卡的電腦上,前述那段 6 分多鐘的影片,利用「 ggml-medium.bin 」這個比較大的運算模型,轉成文字檔案的時間大約是 1 分鐘 25 秒,完全可以接受。而如果擁有更新、更好的獨立顯示卡的筆電、電腦的朋友,運算時間一定可以比我快上許多。
但是,如果你的筆電沒有內建獨立顯示卡呢?
例如我去年購買了 Surface Pro 9 (這幾年喜歡這樣的觸控螢幕輕薄筆電),沒有獨立顯示卡,但是當然還是有顯示晶片可以運算,這時候的效能如何呢?
結果如下圖,雖然是更新的筆電,平常跑其他文書、網頁更快,但一旦碰上需要顯示卡運算時,就有明顯的速度差距。
在沒有獨立顯示卡的新筆電上,如果我上述 6 分多鐘的影片,利用「 ggml-medium.bin 」這個比較大的運算模型,跑了 28 分鐘才產出結果。
所以我在 Surface 輕薄筆電上趕快換成「ggml-small.bin 」這個小型的運算模型,這時候,一段 6 分鐘的影片,在沒有獨立顯示卡的筆電上,也「只需要」 10 分鐘左右來完成。
雖然不夠快,但可以接受。
而且,粗看下來,用大型運算模型、小型運算模型,在這個 6 分鐘影片的例子上,看不出明顯差別。
下面是「ggml-small.bin 」算出來的結果。