電腦視覺與即時感知系統

利用電腦視覺與深度學習技術，實現物件偵測、影像分割、目標追蹤與場景語意理解，為自走車、無人機及智慧監控系統提供即時視覺感知能力。

Computer Vision Object Detection Deep Learning YOLO Semantic Segmentation Real-time

🔍 研究概覽

本研究專注於電腦視覺技術的開發與應用，涵蓋物件偵測（Object Detection）、語意分割（Semantic Segmentation）、實例分割（Instance Segmentation）及多目標追蹤（MOT）等核心課題。

研究採用 YOLO 系列、EfficientDet、Mask R-CNN 等前沿模型架構，在準確率與推理速度之間取得最佳平衡，使系統能夠在嵌入式平台上達到即時處理需求。

視覺感知結果被整合至無人機飛控系統與自走車導航模組，輔助載具進行環境理解、目標跟蹤與危險區域偵測，實現真正意義上的端到端自主感知決策。

⚡

即時推理速度

YOLO 模型在 GPU 上達 60+ FPS 即時偵測

🎯

高精度偵測

mAP@0.5 達 92% 以上（自訂資料集）

📱

輕量化部署

模型量化後支援 Jetson Nano 邊緣推理

🔄

跨模態感知

RGB + 深度影像融合，提升 3D 場景理解

📌 研究主題

🔍

物件偵測與辨識

基於 YOLO、SSD、Faster R-CNN 等架構，對影像中的目標進行高效率的定位與類別辨識。

🎨

語意與實例分割

利用 DeepLab、Mask R-CNN 對場景進行像素級分類，輔助自走車理解可通行區域與障礙物邊界。

🏃

多目標追蹤

結合 DeepSORT、ByteTrack 演算法，在連續影像幀中穩定追蹤多個運動目標的軌跡。

📐

深度估測與 3D 感知

使用單目深度估測（Monodepth）與立體視覺技術，從 2D 影像重建環境的 3D 空間結構。

🏷️

資料標注與增強

建立自動標注工具流程，並透過 Mosaic、Mixup、Albumentations 等技術進行資料增強。

🚁

空拍影像分析

針對無人機空拍影像進行特定場景分析，包含車輛計數、人群密度估測與地表覆蓋分類。

🎯 研究目標

建立高效能偵測管線

優化推理速度與準確率的平衡，使模型在資源受限的嵌入式裝置上仍能即時運作。

強化惡劣條件下的辨識

研究低光源、模糊、遮蔽等條件下的影像增強與模型強健性訓練策略。

整合視覺與導航系統

將視覺感知輸出與 ROS 導航堆疊整合，使載具能基於視覺資訊進行自主決策。

建立領域特化資料集

蒐集並標注實驗室場景、室內環境等專屬資料集，提升模型在特定應用場景的效能。

🛠️ 使用技術與工具

Python PyTorch OpenCV YOLOv8 / YOLOv11 Detectron2 Mask R-CNN DeepSORT / ByteTrack TensorRT ONNX Albumentations Label Studio NVIDIA Jetson Intel RealSense D435 Roboflow Weights & Biases CUDA