利用電腦視覺與深度學習技術,實現物件偵測、影像分割、目標追蹤與場景語意理解,為自走車、無人機及智慧監控系統提供即時視覺感知能力。
本研究專注於電腦視覺技術的開發與應用,涵蓋物件偵測(Object Detection)、語意分割(Semantic Segmentation)、實例分割(Instance Segmentation)及多目標追蹤(MOT)等核心課題。
研究採用 YOLO 系列、EfficientDet、Mask R-CNN 等前沿模型架構,在準確率與推理速度之間取得最佳平衡,使系統能夠在嵌入式平台上達到即時處理需求。
視覺感知結果被整合至無人機飛控系統與自走車導航模組,輔助載具進行環境理解、目標跟蹤與危險區域偵測,實現真正意義上的端到端自主感知決策。
YOLO 模型在 GPU 上達 60+ FPS 即時偵測
mAP@0.5 達 92% 以上(自訂資料集)
模型量化後支援 Jetson Nano 邊緣推理
RGB + 深度影像融合,提升 3D 場景理解
基於 YOLO、SSD、Faster R-CNN 等架構,對影像中的目標進行高效率的定位與類別辨識。
利用 DeepLab、Mask R-CNN 對場景進行像素級分類,輔助自走車理解可通行區域與障礙物邊界。
結合 DeepSORT、ByteTrack 演算法,在連續影像幀中穩定追蹤多個運動目標的軌跡。
使用單目深度估測(Monodepth)與立體視覺技術,從 2D 影像重建環境的 3D 空間結構。
建立自動標注工具流程,並透過 Mosaic、Mixup、Albumentations 等技術進行資料增強。
針對無人機空拍影像進行特定場景分析,包含車輛計數、人群密度估測與地表覆蓋分類。
優化推理速度與準確率的平衡,使模型在資源受限的嵌入式裝置上仍能即時運作。
研究低光源、模糊、遮蔽等條件下的影像增強與模型強健性訓練策略。
將視覺感知輸出與 ROS 導航堆疊整合,使載具能基於視覺資訊進行自主決策。
蒐集並標注實驗室場景、室內環境等專屬資料集,提升模型在特定應用場景的效能。