我們這篇文章不針對AI太多的技術探討,單純分享應用工具。今天要來介紹一款AI應用軟體-Nuance Dragon Anywhere。Nuance 是一家提供語音識別技術的公司,可以說是在語音識別的領域佔有極為重要的角色。大家所熟系的Siri便是使用了Nuance的語音識別引擎(speech recognition engine)。
當我們說到語音識別技術,主要分為兩種技術Voice to text (或稱為Speech to text、STT)、Text to speech(或稱TTS)。第一種是在識別聲音並且將聲音轉成文字。第二種則反過來,是將文字轉成聲音。
而評估這兩種技術的觀察指標則不太相同。STT技術主要關注的是效能、辨識率,也就是說轉寫的速度是否夠快,轉寫出來的結果是否符合期望。TTS主要關注的是聲音好不好聽、會不會語速過快、是否夠人性化的聲音。
我們今天要介紹的Dragon Anywhere就是一種實作Voice to text 的APP軟體,他可以幫助我們做甚麼呢? 我們進到官網就可以看到他的slogan “Get documents done anywhere”,核心在於讓你隨時隨地就可以打一篇文章,協助你的遠端工作更即時完成。聽起來似乎很棒,唯一的小小遺憾是他目前僅支援美式英語、英式英語、加拿大英語,以及德語(這篇文章以美式英語模式做實測)。
以下是官方列的六個特點
Nuance Dragon Anywhere 特色
- 聽寫不中斷,無字數限制
- 高達99% 的識別準確率
- 校正選單功能,可以方便更正拼音錯誤
- 提供訓練熱詞功能,自動詞
- 可以跨裝置存取到熱詞與自動詞
- 可以將轉好的文字分享
1. 聽寫不中斷
不得不說,他們這功能做的很好。語音引擎要識別出我們說的話需要較高的系統要求,並且在說話不中斷的情況下他要能夠即時識別與修正你的上下文去找到最接近正確的文字。在我實際測試中轉寫出來的速度很快,幾乎沒有停頓,並且準確率不會因為我的語速快而變差。(如果識別不好有可能是發音不標準)
2. 99%的辨識率
這個辨識率的定義通常是由發展語音識別引擎的廠商自己定義的規則。不過大部分的計算公式如下
準確率 = 1 -(錯誤字+遺漏字)/ (正確字-含糊不清的字)
錯誤字就是很明確發音正確但是出來的字不同,遺漏字就是發音正確但沒有轉寫出這個字,含糊不清就是聲音本身不清楚所以要將這個字數加回來不計入失敗數。
等等後面會有我測試的影片及字搞,我自己初估應該是有95%以上正確。由於我也不是很標準的母語人士,準確率是否99不好說嘍~~各位朋友可以實測看看
3. 校正選單功能
透過內建的語音功能,可以不動手針對錯誤的文字做修改。
語音指令如下
語音輸入 | 功能描述 |
Undo That | 可以還原上一個動作指令。如果是格式化錯誤,則可以說unformat |
Correct That | 這個指令會叫出校正選單功能,提供給你快速選擇 |
Resume with <text> | 當輸入了一句話,但想要修改從某個字開始可以使用這指令。 |
Select <text> | 選擇某個字,然後可以針對這個字做動作處裡 |
Scratch That | 刪除你最後說的指令。如果你說的是一段完整的句子則會整段刪除 |
Press Backspace, Backspace 2 | 等於是執行按後退鍵的功能 |
4. 訓練詞功能
在APP中的功能可以找到”Custom Words”,以及”Auto-texts”。這兩個功能是在協助你自我校正轉寫的結果。
Custom Words:主要用在專業領域用詞。由於語音引擎通常會優化一般通用的說法用詞,所以在通用性用詞上的準確率通常有一定的水準,但是各個不同專業領域上的說法用詞就很不同。對於這樣的特殊用詞可以用這功能補強。
Auto-texts:可以把常用的句子輸入,其實就是預先儲存常用語。這樣當你要打文章的時候就可以加上去。
5. 跨裝置存取熱詞、自動詞
這個功能很妙的是,他說可以跨裝置。我查詢了官方的說明文件,他們支援的跨裝置也只是IOS系統與Android系統。可以透過藍芽麥克風來做連結。這個功能我沒有實際測試,所以不作評論。
並且這一套APP就是主要用在隨身的紀錄,對於怎樣的情境已經使用了隨身筆記還需要連接到其他裝置的需求我目前還沒有發想到。
6. 文章分享
這個應該是很實用的一個功能。想像一下,當你人在外面沒有辦法打開電腦。你可能是一個作家需要隨時把想到的點子記下來。你可能是一個旅遊部落客,在旅行過程中要把你的心得或是細節記錄下來。可以透過這個功能將你的文章分享出去。
目前提供的方式有: email 、同步到Evernote、同步到Dropbox、傳送到LINE、Wechat….等可以接收文字的軟體。
實際測試影片分享
那麼說了這麼多,附上實際測試的影片提供參考。
即使我的發音這麼爛,他的準確率還是有95%以上….真的很厲害
以下是我的讀字搞,以及轉寫出來的文字
讀字原稿
Conversational AI empowers private and public sector professionals to document more naturally.
換行
Enables professionals to quickly and easily document the details of client meetings using speech recognition that is 3 times faster than typing and up to 99% accurate.
新段落
Business professionals can stay productive anywhere and focus on their clients and business rather than the technology.
轉寫稿(我將與期望不同的字標記黃色)
Conversational AI empowers private and public sector professionals to document more naturally.
Enables professionals to quickly and easily document the details of client meetings using speech recognition that is three times faster than typing and up to 99% accurate.
Business professionals can stay productive anywhere and focus on their compliance and business better lender technology.
我認為屬於含糊不清的字: better、lender
錯誤字: compliance
準確率 = 1 -(1+0)/ (55-2) = 98%
那麼,功能介紹就到這裡。有興趣的朋友可以去下載來試玩看看。
這是一套需要付費的服務,有月方案($15美金)、年方案($150美金),及企業方案(專人詢價)。也提供了一周的試用方案,以下帶你使用一周試用方案。
下載安裝Nuance Dragon Anywhere
到Nuance官網註冊帳號以及下單,請從這裡Nuance Dragon Anywhere首頁進去。
往下拉會看到這裡列出所有的方案,我們選擇1 week free trial,點選Get it now
如果左下角跳出詢問是否購買,點選No Thanks
這裡會將剛剛選擇的商品帶入購物車,請再次確認你點選的是免費的一周試用方案。然後點選CHECKOUT
這一頁需要輸入你的個人資訊以及信用卡資料。
(我假設大家英文程度應該都看得懂我就不多解釋了,畢竟都要使用Dragon了肯定是懂英文的^_^)
***唯一需要特別提醒的是,下面有宣告。如果一周試用期間滿會自動轉為月訂閱。所以請大家記得如果不想繼續使用記得要做取消訂閱的動作
再次確認訂單資訊。這邊有說明是7天的免費方案
查看條款說明並打勾,點選SUBMIT ORDER
這裡又再一次說明。如果打勾就表示同意Digital River可以自動續約我的訂閱,並且Digital River會儲存我的信用卡資料以便於下一次的訂閱使用。請確定你同意再打勾往下唷。
接著完成了訂閱,這裡會顯示你的訂單編號等資訊。同時也會發信到你的email,在email中也可以得到這些資訊。請將這資訊保管好,如果要取消訂單的時候應該會需要用上。
接著到手機APP store輸入”Nuance Dragon”並安裝。
登入你註冊的帳號密碼
這裡可以選擇你的語系
最後,再一次提醒。如果沒有打算要繼續付費使用請記得到官網取消你的訂閱避免被扣錢。
總結來說,我覺得這是一套辨識率高且效能好的語音識別APP。對於有英文寫作、需要經常寫英文的行動工作者應該是有幫助的。如果你還想看類似功能的中文工具可以參考這一篇AI應用-訊飛語記(讯飞语记Voice to text應用APP)介紹。