美团之后，京东也开始自研大模型了

张开发

• 2026/6/6 4:23:02 • 15 分钟阅读

分享文章

京东发布了JoyAI-LLM Flash模型。它激活参数小且推理速度快。只用不到30亿的激活参数在多项测试里跑赢了同级别的许多老大哥。这款模型通过混合专家架构、20万亿Token的预训练、首创的FiberPO强化学习算法以及多Token预测等技术把模型的算力成本和推理效率做到了极致。它是怎样在保持高性能的同时做到省时省力的基础架构与预训练设计JoyAI-LLM Flash是一个总参数量为489亿的混合专家(Mixture-of-Experts)模型。它总共有40层神经网络第一层是常规的密集网络剩下39层都是这种专家层。模型里一共包含256个负责具体任务的路由专家和1个兜底的共享专家。每次处理一个Token时它只需要激活8个相关的路由专家和那个共享专家。虽然总参数量接近500亿但模型每次向前计算只激活了约32.8亿个参数如果不算词表嵌入层甚至只有27亿。这种设计让它在省电和省算力方面表现突出。它在微观结构上使用了多头潜在注意力(Multi-head Latent Attention)机制。这是目前业内提升推理效率非常前沿的做法。在训练阶段工程师给它喂了多达20.7万亿个高质量Token。为了让它吸收这些知识团队放弃了常规的Adam优化器改用了Muon优化器。以往用Adam训练这么大的模型时经常会遇到损失值突然飙升的情况工程师不得不在半夜爬起来手动调整学习率。Muon优化器通过矩阵正交化的方式进行更新在整个实验中表现得极其稳定没有出现过任何明显的数值异常崩溃。为了让模型能循序渐进地变聪明预训练被切分成了4个阶段。一开始是基础阶段让模型看海量的普通文本打底。接着是代码和数学增强阶段大幅增加这两类数据的比例来锻炼逻辑能力。随后进入中期训练专门用极高质量的内容来提升推理水平并且引入了多Token预测(Multi-Token Prediction)技术让它学着一次性预测后面的好几个词。最后是长文本阶段分两步把模型的阅读视野从6.4万个Token拉长到12.8万个Token。基础模型训练完之后团队做了一次摸底考试。在通识、数学、写代码和长文本等9个评测榜单上JoyAI-LLM Flash的基础模型交出了一份优秀的答卷。在数学和长文本处理上它甚至比参数量相近的Qwen系列模型表现得更为强悍。高质量数据加工大模型能有多聪明完全取决于它吃进去的数据有多好。为了凑齐这20.7万亿个高质量Token研发团队建立了一条非常庞大且精细的数据流水线。在处理网页数据时他们不仅用了基础的规则过滤掉恶意网站和乱码还增加了一个专门查重和保护隐私的模块。为了对付网页里那些总是去不掉的侧边栏菜单和牛皮癣广告他们直接微调了一个小模型专门给网页的每一行文本打分把那些没有营养的废话全删掉。团队从GitHub等开源社区抓取了大量的代码按照质量打分并剔除重复项。为了让模型适应超长代码他们把相关联的文件按照逻辑顺序拼接起来组成6.4万到12.8万Token长度的代码块。他们还用大模型把很多晦涩的代码重写成更易读的教学格式。面对高质量学术内容的匮乏团队解析了上千万份PDF文档。PDF排版非常复杂直接复制往往会把数学公式和表格弄乱。他们采用先进的文档解析工具把理工科、医学、社会科学等领域的专业文献完美还原成了干净的文本。除了真实数据合成数据在后期训练里起到了挑大梁的作用。工程师不仅让高级模型改写网页里的客观知识还让它去解答真实世界的复杂理工科试题并且要求它在给出最终答案前生成多步的思考过程。针对软件工程任务团队搭建了一个自动化验证系统相当于给大模型建了一个虚拟沙盒。模型在这个沙盒里尝试修改代码或者写测试用例系统会自动去编译运行。只有那些真正能跑通、能修复系统漏洞的操作记录才会被保留下来作为训练素材。工程师还特意训练模型使用各种外部工具比如让它学会调用Python解释器来算数学题或者用搜索引擎去网上查最新的资料。这种工具集成推理(Tool-Integrated Reasoning)能力彻底解决了模型因为知识库过时而胡说八道的问题。强化学习与对齐在把一个只会接话的半成品变成听指令、会干活的数字员工这个阶段研发团队投入了极大的算力。他们将后期训练分为监督微调(Supervised Fine-Tuning)、直接偏好优化(Direct Preference Optimization)和强化学习(Reinforcement Learning)3个连续的步骤。在监督微调阶段团队把带思考过程的数据和直接回答的数据混合在一起给模型学习。这种动静结合的做法显著提升了模型的服从能力。紧接着的直接偏好优化阶段专门用来治疗模型的幻觉问题通过给模型展示什么是好答案什么是坏答案迅速把它偏离正确轨道的胡言乱语给纠正过来。整个后期训练最亮眼的核心是团队首创的FiberPO强化学习算法。以前大家训练模型常用的算法比如GRPO存在一个很头疼的问题。当我们给模型的一长段回答打分时传统的做法是算一个总分然后根据总分去奖惩这段话里的每一个词。这就导致了一个现象当模型整体偏离正确方向时所有的词都会被同时判定为坏词。FiberPO算法彻底解决了这个不讲理的牵连问题。它把奖励机制拆成了宏观和微观两个层面。在宏观层面它控制一整段回答不能偏离正常人类对话太远在微观层面它独立评估每一个词的贡献。有了这个微观保护罩哪怕整体回答不太符合预期那些本身用得非常精准的词依然能得到保护和奖励。这种精细的打分机制带来的最直接好处就是极高的Token利用效率。老算法一旦在宏观上崩盘模型就分不清好词和坏词往往会开始胡乱生成冗长且没有意义的废话。而FiberPO算法下的模型不仅逻辑清晰生成的回答更是精简干练用最少的Token准确切中要害完全不啰嗦。在综合测试中使用了新算法的JoyAI-LLM Flash在各个维度上都展现出了极其出色的成绩尤其在代码和工具使用上令人印象深刻。推理加速与部署让大模型变聪明只完成了一半的工作让它能快速便宜地跑在各类服务器甚至普通电脑上才是工业界最看重的落地能力。JoyAI-LLM Flash采用了多Token预测的技术。团队给模型额外加了一个轻量级的预测部件让它在思考当前这个词的时候把后面两三个词也顺带猜出来。在测试中这个小小的改动直接带来了最高1.87倍的生成速度提升。除了提升输出效率团队在训练早期就用上了量化感知训练(Quantization-Aware Training)技术让模型在学习的过程中就习惯低精度运算的误差。模型发布时配套了一系列量化版本包括在企业级显卡上跑的FP8以及适配普通电脑的GGUF格式。他们甚至发明了一种叫做“双重量化”DoubleQuant的压缩方法把模型切成大块再压缩两遍做到了体积大幅缩减而智商基本不掉线。在真机部署时大模型经常会面临两类极端场景。一类是像客服聊天这样的短对话用户对响应速度极其敏感。对于这种场景团队建议把负责吸收上文的节点和负责生成回答的节点放在同一台机器上省去网络传输的时间。另一类是让大模型看几十页财报然后再给出几十个字的总结这就需要跨机器去调配缓存。对于这种长文本处理采用存储分离和集中管理的方式能大幅减少重复计算。这些扎实的技术经验为京东将模型真正铺进各类商业场景扫清了最后的障碍。参考资料https://arxiv.org/pdf/2604.03044https://huggingface.co/collections/jdopensource/joyai-llm-flash

更多文章

前端开发 2026/5/30 19:55:40

Taskcafe故障排除终极指南：解决15个常见问题的完整清单

Taskcafe故障排除终极指南：解决15个常见问题的完整清单【免费下载链接】taskcafe An open source project management tool with Kanban boards 项目地址: https://gitcode.com/gh_mirrors/ta/taskcafe Taskcafe作为一款开源项目管理工具，提供了…

dpkg vs apt：深度解析与场景化选择指南在Debian系Linux发行版中，软件包管理是系统维护的核心技能。当你第一次面对dpkg -i和apt install这两个看似相似却本质不同的命令时，是否曾困惑过它们的内在区别？本文将带你穿透表象&#x…

张开发

前端开发 2026/5/31 17:18:45

Oh My Git!自定义关卡开发教程：如何创建自己的Git学习场景

Oh My Git!自定义关卡开发教程：如何创建自己的Git学习场景【免费下载链接】oh-my-git An interactive Git learning game! 项目地址: https://gitcode.com/gh_mirrors/ohm/oh-my-git Oh My Git!是一款交互式Git学习游戏，通过游戏化的方式帮助开发…

张开发

美团之后，京东也开始自研大模型了

最新文章

PAT乙级刷题避坑指南：从‘我要通过！’到‘狼人杀’，那些题目里没说清的隐藏考点

从芯片设计到客户手里：揭秘AE、FAE、PE、VE如何接力完成一颗IC的旅程

用PaddleOCR v3搞定80种语言图片文字提取：从安装到实战避坑全记录

保姆级避坑指南：在ROS Noetic上搞定aruco_ros编译与单目相机定位（解决CV_FILLED报错）

碧蓝航线Alas脚本完整指南：自动化游戏终极解决方案

FUXA工业级可视化监控系统：5天从零构建专业SCADA平台的完整指南

推荐文章

相关文章

分享文章

更多文章

Taskcafe故障排除终极指南：解决15个常见问题的完整清单

Pangolin与ROS集成：构建机器人视觉系统的完整方案

ARM 架构 JuiceFS 性能优化：基于 MLPerf 的实践与调优乙

Blue Topaz主题：10分钟打造你的专属Obsidian蓝色笔记空间

电子工程师必看：巴特沃斯、切比雪夫、贝塞尔滤波器到底怎么选？

Badget开发者指南：从零开始构建现代化财务应用

垫圈和挡圈的作用是什么？紧固件应用与功能解析_FES上海紧固件专业展

【最便捷】高德地图坐标拾取器使用指南

Tabular.vim 与代码格式化：如何完美集成到你的开发工作流

Facenet-Pytorch人脸识别实战指南：5步快速构建精准人脸识别系统

dpkg vs apt：一文搞懂何时该用哪个（附真实场景选择指南）

Oh My Git!自定义关卡开发教程：如何创建自己的Git学习场景