RK3588上111 FPS:轻量YOLOv8+异步视频处理系统实现无人机自主电力巡检

张开发
2026/4/15 8:59:17 15 分钟阅读

分享文章

RK3588上111 FPS:轻量YOLOv8+异步视频处理系统实现无人机自主电力巡检
导读无人机电力巡检正在从按预设航点飞行离线分析向实时检测自主决策演进但边缘端算力始终是瓶颈——RK3588的NPU只有6 TOPS功耗低至个位数瓦特如何在这样的硬件上跑出可用的检测帧率千叶大学Suzuki团队给出了一套从模型到系统的完整方案对YOLOv8做 VanillaBlock重参数化 Slim-Neck 结构化剪枝三步改造剪枝后仅 3.7 GFLOPs、1.92M 参数再通过自研的DVSPS异步视频处理系统3核NPU并行 多线程调度 硬件加速编解码RK3588三核NPU实测达到111.3 FPS系统端到端延迟仅 23ms。最终在自建的11451张电力巡检数据集上部署验证INT8量化后 mAP50达84.2%。更值得关注的是系统还集成了无需外部航点的塔杆自主定位和导线追踪功能将检测、导航、决策闭合在一块6 TOPS的板子上。论文信息标题A Lightweight Drone Vision System for Autonomous Inspection with Real-Time Processing作者Zhengran Zhou, Wei Wang, Hao Wu, Tong Wang, Satoshi Suzuki机构Chiba University, Japan; F-REI Fukushima, Japan期刊Drones 2026, 10(2), 126发表日期2026年2月11日一、6 TOPS边缘板上的实时检测问题有多难电力巡检无人机需要在飞行过程中实时识别铁塔各部件塔顶、横担、绝缘子、塔身、塔基同时保持足够的帧率以支撑导航决策。这对机载计算提出了三重约束算力有限RK3588集成的NPU为6 TOPS与桌面GPU如RTX 4080相比差距显著功耗严格作为低功耗嵌入式平台难以搭载高功耗计算模块实时性要求视频流处理需要达到接近30 FPS以上才能支撑连续飞行中的检测和导航论文采用的硬件平台包括自研四旋翼无人机、SIYI ZR10网络相机1920×1080分辨率H.265编码30fps和基于RK3588的自研机载计算机软件栈基于ROS OpenCV构建。整套系统的目标是在不依赖云端或地面站计算的前提下完成从视频解码、目标检测到导航决策的全流程。图片来源于原论文二、三步模型轻量化VanillaBlock Slim-Neck 结构化剪枝论文基于YOLOv8进行了三个层次的轻量化改造目标是在压缩计算量的同时保持检测精度。2.1 VanillaBlock替换C2FBackboneVanillaBlock的核心思路是训练-推理解耦训练阶段使用堆叠的ReLU激活函数Stacked ReLU来增强非线性表达能力推理阶段通过多步重参数化实现加速——先将BN层参数融合到卷积权重中再让激活函数退化为线性映射最后将相邻的线性卷积层合并为单一操作。这样训练时保留了足够的模型容量推理时又获得了线性操作带来的速度优势。2.2 Slim-Neck替换Neck中的C2f在Neck部分论文用GSConv VoV-GSCSP替换原有的C2f模块构建Slim-Neck结构。GSConv将标准卷积与深度可分离卷积混合使用并引入通道混洗channel shuffle操作来增强特征交互在减少参数量的同时维持特征融合质量。2.3 结构化剪枝在模型训练完成后论文对BN层的缩放因子γ施加L1正则化然后移除γ值较小的通道最后通过微调恢复精度。在0.8剪枝率下最终模型达到mAP50 88.4%、FLOPs 3.7G、参数量1.92M。数据集与训练配置论文构建了一个包含11,451张高分辨率图像的电力巡检数据集覆盖城市和山区两种环境标注5类目标Tower Head Assembly塔头组件、Concrete Pole Shaft杆身、Insulator绝缘子、Top Section of the Concrete Pole杆顶段、Embedded Section of the Concrete Pole杆基埋入段按8:1:1划分为训练集9,160张、验证集1,145张和测试集1,146张。训练在RTX 4080 i9-14900K上完成300 epochsbatch size 16输入分辨率640×640优化器为AdamW初始学习率1e-3部署时通过INT8量化转换到RK3588的RKNN格式。消融实验各组件的贡献论文在COCO val2017上RTX 4080环境对Backbone和Head的不同组合做了系统消融BackboneHeadmAP50(%)mAP50:95(%)FLOPs(G)Latency(ms)P(%)R(%)C2F(BN)C2F(BN)83.049.18.25.080.978.2C2F(VanillaBlock)VoV-GSCSP85.553.06.15.482.381.1C2F(VanillaBlock)C2F(VanillaBlock)86.753.66.15.583.780.8C2F(BN)VoV-GSCSP87.853.07.44.982.683.8VanillaBlockC2F(BN)86.253.96.85.183.680.7VanillaBlockVoV-GSCSP87.955.15.74.884.983.2最优组合为VanillaBlockBackbone VoV-GSCSPHead相比基线C2F(BN)C2F(BN)mAP50提升4.9%83.0% → 87.9%FLOPs降低30.5%8.2G → 5.7G延迟降低4.0%5.0ms → 4.8ms三、DVSPS从单帧推理到视频流实时处理模型本身的推理速度只是问题的一半。在实际的视频流场景中还需要处理视频解码、色彩空间转换、推理调度、结果编码传输等环节。论文提出的DVSPSDigital Video Stream Processing System从系统层面解决这个问题包含三个核心模块3.1 RKNN Pool3核NPU并行推理RK3588集成了3个NPU核心DVSPS通过RKNN Pool实现动态NPU选择和并行推理调度将3个核心的算力充分利用而非仅使用单核。3.2 Thread Pool异步多线程调度通过线程池实现视频解码、模型推理、结果传输三个环节的异步解耦。各环节可以并行运行不需要串行等待从而隐藏各阶段的延迟。3.3 Media Transmission硬件加速编解码利用RK3588内置的MPPMedia Process Platform进行硬件加速的视频编解码以及RGARaster Graphic Acceleration进行色彩空间转换避免CPU软解码的性能瓶颈。部署性能BackboneHead原始大小(MB)INT8量化(MB)FPS (GPU)FPS (NPU单核)FPS (NPU三核)VanillaBlockVoV-GSCSP4.333.515912.5111.3关键数据经过INT8量化后模型仅3.5 MB单线程处理延迟为192msDVSPS异步流水线将其压缩到36ms实现5.3倍加速RK3588三核NPU达到111.3 FPS远超30fps的实时需求最终系统INT8量化部署后端到端延迟仅23msmAP50为84.2%mAP50:95为52.5%。相比剪枝后未量化的88.4%INT8量化带来约4.2个百分点的精度损失但换来了显著的推理速度提升和模型体积压缩图片来源于原论文四、自主巡检导航无需预设航点的塔杆定位与导线追踪除了检测模型和视频处理系统外论文还设计了两项自主导航功能使无人机能够在无需外部航点规划的情况下完成巡检任务。4.1 塔杆自主定位基于针孔相机模型通过多帧图像中塔杆目标的几何关系估计塔杆的空间位置。这种方法不依赖预先标注的GPS航点或三维地图仅依靠视觉检测结果和相机参数即可完成定位。4.2 导线追踪导线追踪流程为先用线段检测器从图像中提取线段然后通过K-means聚类找到主导方向再据此提取航向并进行校正。论文设定的角度阈值δθ为5°当偏差超过此阈值时触发航向调整。这两项功能与前述的检测模型和DVSPS系统配合构成了一条从看到什么到往哪里飞的完整闭环核心的检测、导航、决策流程均在机载RK3588上运行。图片来源于原论文五、总结与思考论文构建了一套从模型优化到系统部署再到自主导航的完整无人机电力巡检方案。模型层面VanillaBlock Slim-Neck 结构化剪枝将YOLOv8的FLOPs从8.2G压缩到3.7GmAP50反而提升到88.4%系统层面DVSPS通过NPU并行、异步调度和硬件编解码在RK3588上实现了111.3 FPS应用层面集成了无需外部航点的塔杆定位和导线追踪。在此基础上有几点值得进一步思考DVSPS的通用性值得关注。这套NPU并行 异步线程池 硬件编解码的架构并不绑定于电力巡检场景其他在RK3588上部署视频流检测的项目如安防、工业质检也可以借鉴。将单帧192ms压缩到36ms的5.3倍加速更多来自系统工程而非模型本身这类工作往往在学术论文中被低估。数据集规模与多样性。11,451张图像覆盖了城市和山区环境5类目标的划分面向电力塔结构这在电力巡检领域是一个可用的基准。不过数据集是否公开、能否支撑其他团队的复现和对比论文未明确说明。

更多文章