快商通公檢法事業(yè)線總經(jīng)理李稀敏博士就“人機語音交互是否必須要先喚醒和離線語音技術在本地端上的實現(xiàn)是否未來的趨勢”為題進行分享:
01 人機交互必須要先喚醒嗎?
語音交互流程被劃分為五個環(huán)節(jié) – 喚醒、響應、輸入、理解、反饋。其中喚醒是每一次用戶與語音產(chǎn)品交互的第一個接觸點,喚醒環(huán)節(jié)的體驗在整個語音交互流程中至關重要,它的體驗好壞將直接影響用戶對產(chǎn)品的“第一印象”。就目前市面上常見的語音交互產(chǎn)品來說,一個眼神或者一個動作還不能引起它的注意,因此需要定義一個將產(chǎn)品從待機狀態(tài)切換到工作狀態(tài)的詞語,即所謂的“喚醒詞”。比如“小度小度”“若琪”“叮咚叮咚”。那么,人機交互我們必須要先喚醒嗎?李稀敏認為:隨著技術場景越來越成熟,當機器具備足夠的智能化,機器是可以不需要喚醒詞,就像跟人對話一樣自然。但距離無喚醒交互的實現(xiàn),還有一段路要走。從聲紋識別的角度來看有兩種場景,第一種,用喚醒詞作為命令詞,設備在休眠或鎖屏狀態(tài)下也能檢測到用戶的聲音(設定的語音指令,即喚醒詞),讓處于休眠狀態(tài)下的設備直接進入到等待指令狀態(tài),開啟語音交互第一步。第二種設置一個“喚醒詞”,這時候我們可以將設備喚醒比作水龍頭的開關,如果水龍頭沒有開關的話,摁都摁不住是吧?就像智能音響交互的時候,設備亂七八糟的識別了一大堆語音,這個東西出來摁都摁不住,所以人機交互還是要有“喚醒”步驟。但是否需要喚醒詞,還需根據(jù)場景的需求來決定,沒有所謂的通用答案。
02 聲紋識別是否可以改進人機交互方式?
最近一段時間很火的蘋果AirPods,華為榮耀FlyPods Pro都在主打身份識別。目前的喚醒大家都是在用這個特定的喚醒詞,如果改用聲紋識別,是否可以改變這種交互的方式?李稀敏認為:在不同的場景中,最佳的喚醒的方式可以不同,但在耳機等可穿戴設備的場景中,聲紋識別因其高易用性、非接觸、不需要前置設備等優(yōu)點,相對其他生物識別技術,能夠更好的解決該場景的實際身份認證的問題,進而改進人機交互體驗。
03 實現(xiàn)本地端離線語音技術是未來趨勢?
“在貼身的耳機,也就是本地端做聲紋識別,其實避免了一個技術問題:遠場識別”,李稀敏解釋。遠場的文本無關身份識別由于復雜的信號傳播環(huán)境等原因,是目前的技術難點,還有很長的路要走。但相對來說,近場的身份識別,在本地端可以通過技術手段快速解決問題。所以,接下來本地端近場身份識別能夠大面積普及,在今后很多場景,我們隨身攜帶一個小設備都能夠直接識別身份。
關于本地化是不是未來的趨勢。從數(shù)據(jù)的角度來講,很多人是不希望自己的聲音信息,人臉信息,通過設備或各種隱私接口上傳到云端且變?yōu)椴豢煽?。李稀敏認為,從這個角度來看,本地化的AI的能力是一個剛需。
04 大熱的語音合成技術TTS,跟聲紋識別PK,誰會更勝一籌?
對于使用錄音、合成語音等攻擊手段的識別,是聲紋識別必須要解決的問題??焐掏ㄔ跒殂y行、保險等金融客戶設計聲紋身份識別系統(tǒng),這個是第一個需要解決的問題。
目前,對聲紋認證的攻擊,大概分成幾類,第一類是模仿,第二類是語音合成或者語音轉換,第三類是錄音重放。根據(jù)實際欺詐的手段來講,目前主要是防錄音重放。其中,錄音重放是最難檢測的。解決了錄音重放問題,就相當于解決了語音拼接和語音合成問題。
快商通在這一點上做得比較領先,我們的首席科學家李海洲院士,團隊在ASVspoof2017自動說話人驗證欺騙和對策挑戰(zhàn)賽中獲得第一名。包括在許多銀行客戶的測試中,我們都是100%檢測到錄音重放。
另外分享個故事,除了算法和系統(tǒng)本身領先,解決方案還需要數(shù)據(jù)驅動,大量的錄音樣本、各種設備、各種采樣率、各種時長、各種環(huán)境的訓練。1年前,我們在北京幾家銀行做測試的時候,白天我們在地鐵上,在最嘈雜的環(huán)境下,各種測試都攻不破。
但晚上,我住在清華大學里,在10:00、11:00左右夜深人靜、一點聲音都沒有的時候,掏出了我們的APP進行測試,卻被攻破了。說明當時我們的訓練數(shù)據(jù)沒有覆蓋到無雜音、無噪音的情況,當然,現(xiàn)在已經(jīng)覆蓋到了(笑)。
關于快商通:
快商通是一家從事人工智能技術與應用研發(fā)的創(chuàng)新型科技企業(yè),在聲紋識別、自然語言處理、深度學習、大數(shù)據(jù)等方面擁有原創(chuàng)核心競爭力。
面向企業(yè)服務、金融、公檢法、醫(yī)療、物聯(lián)網(wǎng)等領域,為全球客戶提供包含人工智能算法、應用軟件、平臺軟件及內嵌人工智能功能的軟硬件一體化解決方案。致力于持續(xù)為客戶創(chuàng)造價值,讓人工智能走進每個人的生活。
發(fā)布評論請先 登錄
施耐德電氣與奇安信共建技術本地化創(chuàng)新中心

開源鴻蒙構建全棧AI端側能力體系
意法半導體攜手華虹打造STM32全流程本地化供應鏈
DigiKey 應用與技術門戶平臺已針對亞太地區(qū)進行了本地化
博實結完成DeepSeek大模型本地化部署
行芯完成DeepSeek-R1大模型本地化部署
曙光順利完成DeepSeek大模型本地化多點私有部署
AI賦能邊緣網(wǎng)關:開啟智能時代的新藍海
正點原子ESP32S3系列開發(fā)板全面支持小智AI
意法半導體在中國的本地化戰(zhàn)略

評論