運用深度學習與音訊處理技術,研究高精度語音辨識、語者識別與聲紋驗證,並將其應用於智慧家庭與 IoT 設備的免持語音控制互動介面。
本研究聚焦於語音音訊的深度學習應用,涵蓋自動語音辨識(ASR)、語者識別(Speaker Recognition)、語音增強(Speech Enhancement)及語音喚醒(Wake Word Detection)等核心技術。
在特徵擷取方面,研究採用 MFCC、Mel Spectrogram 等音訊特徵,並結合 CNN、RNN、Transformer 等神經網路架構,達成高噪音環境下的強健語音辨識能力。
研究最終目標是將語音互動模組整合至智慧家庭場景,實現自然語言控制家電、生活輔助及語音身分驗證等應用,打造更直覺友善的人機互動體驗。
噪音環境下中文語音辨識 WER < 8%
與 Home Assistant / MQTT 無縫對接
聲紋識別 EER < 3%,支援多語者區分
端側推理延遲 < 200 ms,可嵌入式部署
基於端到端深度學習模型(CTC / Attention),針對中文連續語音進行高準確度的語音轉文字。
利用聲紋特徵嵌入(d-vector / x-vector)技術,實現語者身分識別與聲紋驗證。
運用深度神經網路(DNN / CRN)對家庭噪音環境下的語音信號進行去噪與增強處理。
結合意圖識別(Intent Detection)與命名實體辨識(NER),解析用戶語音指令並執行相應動作。
設計低功耗的關鍵詞喚醒(KWS)模型,部署於 MCU 端實現隨時待命的語音觸發。
整合語音辨識與 IoT 控制平台,打造語音操控燈光、家電、門鎖的完整互動系統。
在真實家庭噪音環境下,維持穩定的中文語音辨識精度,降低誤觸發率。
建立使用者聲紋模型,支援個人化語音指令及多用戶權限控管。
透過模型量化與剪枝,將語音模型壓縮後部署至 Raspberry Pi 等低功耗設備。
實現連續語音對話功能,結合 TTS(語音合成)打造自然的雙向人機溝通體驗。