
文章圖片
【iPhone|模仿大腦實現“類人”虛擬助手】
文章圖片

文章圖片

演講不僅僅是一種交流方式 。 一個人的聲音傳達情感和個性 , 是我們可以識別的獨特特征 。 我們使用語音作為主要的交流方式是智能設備和技術中語音助手發展的關鍵原因 。 通常 , 虛擬助手通過將接收到的語音信號轉換為他們可以理解和處理的模型來分析語音并響應查詢 , 以生成有效的響應 。 然而 , 它們通常難以捕捉和整合人類語音的復雜性 , 最終聽起來非常不自然 。
現在 , 在IEEE Access雜志上發表的一項研究中 , 日本高等科學技術學院 (JAIST) 的 Masashi Unoki教授和JAIST的博士生Dung Kim Tran開發了一種可以捕獲語音信息的系統類似于人類感知語音的信號 。
在人類中 , 聽覺外圍將輸入語音信號中包含的信息轉換為大腦可以識別的神經活動模式 (NAP) 。 為了模擬這個功能 , 我們使用匹配追蹤算法來獲得語音信號的稀疏表示或信號表示具有最小可能的顯著系數 。 “然后我們使用心理聲學原理 , 例如等效矩形帶寬尺度、gammachirp 函數和掩蔽效應 , 以確保聽覺稀疏表示與NAP的相似 。
為了測試他們的模型在理解語音命令和產生可理解且自然的響應方面的有效性 , 兩人進行了實驗 , 以將信號重建質量和聽覺表征的感知結構與傳統方法進行比較 。 聽覺表征的有效性可以從三個方面進行評估:重新合成的語音信號的質量、非零元素的數量以及表示語音信號感知結構的能力 。
為了評估重新合成的語音信號的質量 , 兩人重建了630個不同說話者所說的語音樣本 。 然后使用PEMO-Q和PESQ分數對重新合成的信號進行評級——聲音質量的客觀衡量標準 。 他們發現重新合成的信號與原始信號相當 。 此外 , 他們對6位發言者所說的某些短語進行了聽覺表征 。
兩人還測試了該模型準確捕捉語音結構的能力 , 方法是使用模式匹配實驗來確定短語的聽覺表征是否可以與同一說話者的口語或查詢相匹配 。 我們的結果表明 , 我們的方法產生的聽覺稀疏表示可以實現高質量的再合成信號 , 每秒僅1066個系數 。 此外 , 所提出的方法還在模式匹配實驗中提供了最高的匹配精度 。
從能手機到智能電視甚至智能汽車 , 語音助手的作用在我們的日常生活中越來越不可或缺 。 這些服務的質量和持續使用將取決于他們理解我們的口音和發音并以我們認為自然的方式做出回應的能力 。 在這項研究中開發的模型可以在向我們的語音助手傳授類似人類的品質方面大有幫助 , 使我們的交互不僅更方便 , 在心理上也令人滿意 。
相關經驗推薦
- iPhone|康巴赫IH蜂窩鋼膽電飯煲測評體驗,讓生活品質更上一層樓
- iphone13|性能比肩iOS,續航干翻iPhone13ProMax?老外對國產機刮目相看!
- iPhoneX|全球第一臺USB-C接口iPhone X天價成交 第二款尷尬了:僅賣出零頭
- iPhone 14 Pro|iPhone14Pro大曝光:144Hz+A16芯片,屏幕設計偷師華為手機?
- 電池|iphone11更換了非原裝電池 通知怎么取消?
- iPhone|最新手機續航排名:超過7小時的僅四款,第一名霸榜已超過四個月
- 蘋果|不到三千元買蘋果新機?這事實錘了,新款iPhone SE定價泄露
- iPhone|新iPhone到手后都需要做什么?趕緊收藏
- iPhone12mini|iPhone12mini跌至清倉價,僅3599元,比華為還便宜
- iPhone|2022新春換手機,內行人都推薦這三款,配置堪稱行業“天花板”
