數據庫|語音重建AI「翻譯」代言

【數據庫|語音重建AI「翻譯」代言】數據庫|語音重建AI「翻譯」代言


「有口難言」的病人 , 是因腦部疾病、神經損傷而引致構音障礙癥(dysarthria) 。 透過AI、語音重建技術和擴展障礙語音數據庫 , 將患者含糊不清的語音重建成正常語音 。
根據美國言語、語言及聽力學會(ASHA)解釋 , 構音障礙癥是一種神經性語言障礙 。 成人患者常見征狀包括說話時在強度、速度、音域、穩定、語調出現異常;在呼吸、發聲、共鳴、發音或說話韻律上欠準;面部、口部等構音肌肉功能不理想 , 或有肌肉痙攣、無力等情況出現 。
語音識別技術(automatic speech recognition , 簡稱ASR)及語音合成技術(text-to-speech , 簡稱TTS) , ASR是指透過人工智能 , 容許機器接受語音輸入(speech input) , 從語音數據庫中學習人類語言 , 再將人們的語音變為文字;而TTS則是透過AI , 容許機器將人們輸入的文字變成語音輸出 。
要研究語音技術 , 就必須使用大數據 。 話語中存有很多變化性(variability)和不變性(invariance) 。 變化性包括不同說話者的各種語調、情感、口音、身體狀況等 , 都會改變話語發出的信號;不變性可以是說話時使用的字眼 。 各種變數的出現 , 令語音技術研究需用上大數據辨識話語內容 。
花數年擴展廣東話數據庫然而 , 現有語音數據庫存數據偏頗 , 因為數據一般來自從事IT行業、常用數碼化產品、說當地語言時口音較少的人 , 多數為成年人士;相反有口音、語言障礙患者、長者、小朋友等就沒有足夠的語音數據支撐ASR技術 , 使他們的語音難以被準確辨識 。 另外 , 現存公開的語音數據庫 , 部分語言缺乏數據 , 包括廣東話 。
透過語音重建技術(speech reconstruction)、ASR、TTS的研究 , 同時花上數年時間擴展廣東話的語音數據庫 , 協助構音障礙癥患者與照顧者更好溝通 。 由2013年開始 , 研究團隊與香港中文大學醫學院及病友組織合作 , 邀請數十名不同年齡層的構音障礙癥患者 , 錄制他們常用的廣東話用語 , 擴充障礙語音數據 。 錄制過程中 , 患者會讀出經研究團隊精心設計的廣東話句子 , 嘗試用最少的字句包含所有廣東話發音 , 收集研究所需的語音數據 。
以ASR、TTS技術為基礎 , 以及團隊開發的語音重建技術 , 系統接收到患者含糊不清的語音后 , 利用AI演算法 , 將含糊不清的語音轉化成正常語音 , 最后以語音轉換技術轉換成貼近說話人的發音及語調 。
團隊期望日后能把此技術制作成應用程式 , 讓更多有需要人士可于不同地方使用 。

    相關經驗推薦