← 返回研究專案
🎙️
Project · 02

AI 語音辨識與互動系統

運用深度學習與音訊處理技術,研究高精度語音辨識、語者識別與聲紋驗證,並將其應用於智慧家庭與 IoT 設備的免持語音控制互動介面。

AI Speech Recognition Deep Learning NLP Smart Home IoT

🔍 研究概覽

本研究聚焦於語音音訊的深度學習應用,涵蓋自動語音辨識(ASR)、語者識別(Speaker Recognition)、語音增強(Speech Enhancement)及語音喚醒(Wake Word Detection)等核心技術。

在特徵擷取方面,研究採用 MFCC、Mel Spectrogram 等音訊特徵,並結合 CNN、RNN、Transformer 等神經網路架構,達成高噪音環境下的強健語音辨識能力。

研究最終目標是將語音互動模組整合至智慧家庭場景,實現自然語言控制家電、生活輔助及語音身分驗證等應用,打造更直覺友善的人機互動體驗。

🎯

高辨識準確率

噪音環境下中文語音辨識 WER < 8%

🏠

智慧家庭整合

與 Home Assistant / MQTT 無縫對接

🔐

語者識別驗證

聲紋識別 EER < 3%,支援多語者區分

低延遲推理

端側推理延遲 < 200 ms,可嵌入式部署

📌 研究主題

🎤

自動語音辨識 (ASR)

基於端到端深度學習模型(CTC / Attention),針對中文連續語音進行高準確度的語音轉文字。

👤

語者識別與驗證

利用聲紋特徵嵌入(d-vector / x-vector)技術,實現語者身分識別與聲紋驗證。

🔊

語音增強與去噪

運用深度神經網路(DNN / CRN)對家庭噪音環境下的語音信號進行去噪與增強處理。

💬

自然語言理解 (NLU)

結合意圖識別(Intent Detection)與命名實體辨識(NER),解析用戶語音指令並執行相應動作。

🔔

語音喚醒偵測

設計低功耗的關鍵詞喚醒(KWS)模型,部署於 MCU 端實現隨時待命的語音觸發。

🏡

智慧家庭語音控制

整合語音辨識與 IoT 控制平台,打造語音操控燈光、家電、門鎖的完整互動系統。

🎯 研究目標

01

強健噪音語音辨識

在真實家庭噪音環境下,維持穩定的中文語音辨識精度,降低誤觸發率。

02

個人化聲紋建模

建立使用者聲紋模型,支援個人化語音指令及多用戶權限控管。

03

輕量化端側部署

透過模型量化與剪枝,將語音模型壓縮後部署至 Raspberry Pi 等低功耗設備。

04

全雙工對話互動

實現連續語音對話功能,結合 TTS(語音合成)打造自然的雙向人機溝通體驗。

🛠️ 使用技術與工具

Python PyTorch TensorFlow Whisper (OpenAI) SpeechBrain Kaldi MFCC / Mel Spectrogram Transformer / Conformer CTC / Attention Decoder ONNX Runtime Raspberry Pi MQTT Home Assistant TTS (Text-to-Speech) librosa Noise Augmentation