在 OpenHarmony 设备上跑大模型：ONNX Runtime 端侧 AI 实践

张开发

• 2026/6/6 18:13:30 • 15 分钟阅读

分享文章

在 OpenHarmony 设备上跑大模型：ONNX Runtime 端侧 AI 实践

前言目前 OpenHarmony/HarmonyOS 生态中端侧 AI 推理的开源参考实现非常稀缺。本项目基于 ONNX Runtime C API在 OHOS 设备上实现了六种 AI 能力的端侧推理包括端侧大语言模型 Qwen2-0.5B 的流式对话。项目已开源https://gitee.com/ggg5111_admin/ohos_-onnx功能概览功能模型说明图像分类MobileNetV2ImageNet 1000 类目标检测YOLOv5-nanoCOCO 80 类实时检测图像超分ESRGAN3 倍超分辨率情感分析轻量模型文本情感二分类本地问答BGE-small-zh sqlite-vec向量检索 RAG端侧大模型Qwen2-0.5B (Q4F16)流式输出完全离线技术架构ArkTS UI ←→ N-API 桥接 ←→ C 原生层 ←→ ONNX RuntimeONNX Runtime 1.24CPU Execution ProviderC API 封装N-API napi_threadsafe_function实现 C 后台线程到 JS 的流式回调纯 C 实现的GPT-2 BPE 分词器支持 Qwen2 chat templatesqlite-vec向量检索引擎纯本地 RAG 问答Qwen2 大模型能跑但受限于硬件测试设备为搭载紫光展锐 UIS7885的 OHOS 开发板4×Cortex-A76 4×Cortex-A55Mali-G57 GPU3.4GB RAM。实测 Qwen2-0.5BQ4F16 量化无 KV-cache推理数据上下文长度单步耗时26 tokens~750 ms40 tokens~1.1 s60 tokens~1.3 s70 tokens~1.5 s每步约 0.7~1.5 秒随上下文增长线性变慢无 KV-cache 导致每步重算完整上下文。硬件加速是后续优化方向可选路径包括使用带 KV-cache 的模型变体预期 5~20 倍提速在支持 NPU 的设备上对接 NNRt 或 MindSpore Lite探索 MNN 框架的 OpenCL 后端作为替代方案当前阶段的目标是验证 ONNX Runtime 在 OHOS 上的可行性证明端侧大模型对话链路完全可以跑通。项目结构entry/src/main/ ├── cpp/ # C 原生层 │ ├── onnx_wrapper.cpp/h # ORT C API 封装 │ ├── llm_engine.cpp/h # Qwen2 推理引擎 │ ├── qwen_tokenizer.cpp/h # BPE 分词器 │ ├── rag_engine.cpp/h # RAG 引擎 │ └── napi_init.cpp # N-API 注册入口 ├── ets/pages/ # ArkTS UI │ ├── LLMPage.ets # Qwen2 对话页 │ ├── RAGPage.ets # RAG 问答页 │ └── ... # 其他 demo 页 └── resources/rawfile/ # 模型文件需自行下载开源地址Giteehttps://gitee.com/ggg5111_admin/ohos_-onnx许可证Apache 2.0欢迎 Star、Fork、提 Issue。

在 OpenHarmony 设备上跑大模型：ONNX Runtime 端侧 AI 实践

最新文章

PAT乙级刷题避坑指南：从‘我要通过！’到‘狼人杀’，那些题目里没说清的隐藏考点

从芯片设计到客户手里：揭秘AE、FAE、PE、VE如何接力完成一颗IC的旅程

用PaddleOCR v3搞定80种语言图片文字提取：从安装到实战避坑全记录

保姆级避坑指南：在ROS Noetic上搞定aruco_ros编译与单目相机定位（解决CV_FILLED报错）

碧蓝航线Alas脚本完整指南：自动化游戏终极解决方案

FUXA工业级可视化监控系统：5天从零构建专业SCADA平台的完整指南

推荐文章

相关文章

分享文章

更多文章

在工业现场用Codesys Socket读写MySQL数据库：一个用户登录权限验证的实战案例

SecGPT-14B多模态扩展：让OpenClaw支持恶意图片识别

【动漫图像超分辨率】Real-CUGAN实战指南：从配置到效果对比

Linux 网络基础入门：从 IP、端口、DNS 到防火墙，一篇讲透日常最常用的东西

冷库设备巡检维保到底怎么做？这份规范让你少踩80%的坑

如何高效使用付费墙绕过工具：Chrome扩展的完整实践指南

新手福音：用快马AI生成三极管工作原理交互式学习工具

GraphRAG硬核实战：打造企业“数字老师傅”

Zigbee楼宇环境监测系统设计与实现

利用Flatpak在Linux上高效部署CloudCompare：从安装到实战

XBusServo嵌入式舵机控制库：X-Bus协议驱动与实时闭环实践

AceCRC嵌入式CRC库：资源受限场景下的高效校验实践