數據庫|語音重建AI「翻譯」代言

2026-04-27 翻譯廣東省數據庫

【數據庫|語音重建AI「翻譯」代言】

「有口難言」的病人，是因腦部疾病、神經損傷而引致構音障礙癥（dysarthria）。透過AI、語音重建技術和擴展障礙語音數據庫，將患者含糊不清的語音重建成正常語音。
根據美國言語、語言及聽力學會（ASHA）解釋，構音障礙癥是一種神經性語言障礙。成人患者常見征狀包括說話時在強度、速度、音域、穩定、語調出現異常；在呼吸、發聲、共鳴、發音或說話韻律上欠準；面部、口部等構音肌肉功能不理想，或有肌肉痙攣、無力等情況出現。
語音識別技術（automatic speech recognition ，簡稱ASR）及語音合成技術（text-to-speech ，簡稱TTS）， ASR是指透過人工智能，容許機器接受語音輸入（speech input），從語音數據庫中學習人類語言，再將人們的語音變為文字；而TTS則是透過AI ，容許機器將人們輸入的文字變成語音輸出。
要研究語音技術，就必須使用大數據。話語中存有很多變化性（variability）和不變性（invariance）。變化性包括不同說話者的各種語調、情感、口音、身體狀況等，都會改變話語發出的信號；不變性可以是說話時使用的字眼。各種變數的出現，令語音技術研究需用上大數據辨識話語內容。
花數年擴展廣東話數據庫然而，現有語音數據庫存數據偏頗，因為數據一般來自從事IT行業、常用數碼化產品、說當地語言時口音較少的人，多數為成年人士；相反有口音、語言障礙患者、長者、小朋友等就沒有足夠的語音數據支撐ASR技術，使他們的語音難以被準確辨識。另外，現存公開的語音數據庫，部分語言缺乏數據，包括廣東話。
透過語音重建技術（speech reconstruction）、ASR、TTS的研究，同時花上數年時間擴展廣東話的語音數據庫，協助構音障礙癥患者與照顧者更好溝通。由2013年開始，研究團隊與香港中文大學醫學院及病友組織合作，邀請數十名不同年齡層的構音障礙癥患者，錄制他們常用的廣東話用語，擴充障礙語音數據。錄制過程中，患者會讀出經研究團隊精心設計的廣東話句子，嘗試用最少的字句包含所有廣東話發音，收集研究所需的語音數據。
以ASR、TTS技術為基礎，以及團隊開發的語音重建技術，系統接收到患者含糊不清的語音后，利用AI演算法，將含糊不清的語音轉化成正常語音，最后以語音轉換技術轉換成貼近說話人的發音及語調。
團隊期望日后能把此技術制作成應用程式，讓更多有需要人士可于不同地方使用。

相關經驗推薦

上一篇：手機廠商|為什么那么多手機都是被摔壞的？

下一篇：蘋果|HIK D1頭戴藍牙耳機評測：優質的 ANC 和出色的音質，價格合理