大模型微调实战:无需奖励函数的强化学习入门,小白也能轻松掌握并收藏!

张开发
2026/4/21 0:58:58 15 分钟阅读

分享文章

大模型微调实战:无需奖励函数的强化学习入门,小白也能轻松掌握并收藏!
本文介绍了如何通过强化微调RFT技术特别是GRPO算法和ART框架对大语言模型进行优化无需手写奖励函数。文章详细阐述了GRPO的工作原理即通过组内归一化比较模型输出并介绍了ART框架如何支持工具调用和多轮对话。此外还讨论了RULER方法如何利用LLM作为裁判进行自动评估。最后文章提供了在手机上部署和运行微调后的大模型的实战指南展示了从模型加载、数据集准备到训练和部署的完整流程。2026年如何微调大语言模型如果你在用 GPT 或 Claude你用的和其他所有人一样 — 相同的能力、相同的成本没有任何竞争优势。但如果你拿一个小型开源模型在你的特定任务上进行微调它可以超越比它大 100 倍的模型而成本和延迟只是零头。SFT vs. Reinforcement Fine-Tuning强化微调在 Supervised Fine-Tuning监督微调SFT中你收集输入-输出对让模型学习模仿。问题在于SFT 教的是模型说什么而不是如何成功。对于需要搜索、调用 API、跨多步推理的 Agent 来说光靠模仿是不够的。你需要的是通过试错来提升。可以这样理解SFT 看教科书记住已知问题的答案RL 在岗培训从实践、错误和反馈中学习GRPO 的工作原理GRPOGroup Relative Policy Optimization组相对策略优化是目前最流行的 RFT 算法。它正是驱动 DeepSeek-R1 推理能力的同一算法。本质上GRPO 不需要训练一个单独的模型来打分而是生成多个补全结果让它们相互比较。以下是每个 Prompt提示的处理流程采样一组从当前模型生成 N 个补全结果逐一评分奖励函数评估每个尝试组内归一化计算相对于组均值的优势更新模型强化高于平均的行为抑制低于平均的行为GRPO 只需要相对排名不需要绝对分数。无论补全结果得分是 0.3、0.5、0.7 还是 30、50、70 都没关系只有排序决定学习方向。ARTAgent Reinforcement Trainer智能体强化训练器[2]GRPO 很强大但如何将它实际应用到真实世界的 Agent 上ARTAgent Reinforcement Trainer是一个100% 开源框架[3]可以将 GRPO 应用到任何 Python 应用中。大多数 RL 框架是为简单的聊天交互而构建的 — 一个输入、一个输出完事。真实的 Agent 完全不同。它们要搜索文档、调用 API、跨多步推理才能给出答案。ART 正是为此而生。它提供原生支持工具调用和多轮对话与 LangGraph、CrewAI 和 ADK 集成训练期间的高效 GPU 利用架构ART 分为两部分Client客户端和 Backend后端。Client 是你的 Agent 代码所在之处。它向 Backend 发送推理请求并将每个动作记录到 Trajectory轨迹中 — 即一次 Agent 运行的完整历史。Backend 负责繁重的计算。它运行 vLLM 进行快速推理使用 Unsloth 驱动的 GRPO 进行训练。每个训练步骤后新的 LoRA Checkpoint检查点会自动加载到推理服务器中。完整的训练循环Client 发送推理请求Backend 生成模型输出Agent 在环境中执行动作工具调用、搜索等环境返回奖励Trainer训练器通过 GRPO 更新模型新的 LoRA Checkpoint 加载到推理服务器重复 — 每个循环模型都比之前更好一点RULER无需手写奖励函数的 RL定义好的奖励函数一直是 RL 中最难的部分。训练一个邮件 Agent 需要标注的正确答案。训练一个代码 Agent 需要测试套件。每一个都是独立的工程项目。RULERRelative Universal LLM-Elicited Rewards彻底消除了这个瓶颈。它使用LLM-as-JudgeLLM 作为裁判来比较多条 Agent 轨迹并排名 — 不需要任何标注数据。它之所以有效基于两个关键洞察问 LLM “给这个打 0-10 分” 会产生不一致的结果问 “这 4 次尝试中哪个最好地完成了目标” 则可靠得多而且由于 GRPO 只需要相对分数绝对值根本不重要。流程只有三步为一个场景生成 N 条轨迹传给 LLM 裁判它为每条轨迹打 0 到 1 的分将这些分数直接作为 GRPO 的奖励一个实际示例我们做了一个完整可运行的 Notebook用 ART 通过强化学习训练一个 3B 模型来掌握如何使用任意 MCP Server。只需提供一个 MCP Server URL这个notebook[4] 就会查询服务器的工具列表生成一组使用这些工具的输入任务使用自动 RULER 评估在这些任务上训练模型你可以在 ART GitHub 仓库中找到更多示例来适配和上手。GitHub 仓库在这里 →[5]智能体被驾驭的 LLM Agent[6]当人们描述一个 Agent 时通常会说是一个配了工具的模型。但实际上架构恰好相反。模型本身保持小而简单真正的工作发生在模型之外的独立模块中而Harness框架/驾具[7] 是在运行时将这些模块组合在一起的东西。Harness 周围有三个核心区域Memory记忆保存模型不该写入权重或每轮都塞进上下文的信息。Working Context工作上下文、Semantic Knowledge语义知识、Episodic Experience情景经验和 Personalized Memory个性化记忆各有自己的读写路径和生命周期。Skills技能保存可复用的分步操作知识模型在任务匹配时调用。操作流程、决策启发式和规范约束让通用模型无需重新训练就能在特定领域发挥作用。Protocols协议保存 Agent 与外界通信的规则。Agent 到用户、Agent 到 Agent、Agent 到工具是三个不同的接口面各有各的故障模式。在代码中混用它们是不稳定行为的常见来源。在核心和这三个区域之间是维持循环运转的组件包括沙箱、可观测性、压缩、评估、审批循环和子 Agent 编排。压缩比看起来更重要因为长时间运行的 Agent 经常超出模型的 Token 预算。仅评估一项就能将输出质量提升两到三倍 — 据 Claude Code 的创建者 Boris Cherny 所言。这种架构让每个新能力都有明确的归属。稳定信息进入 Memory可复用知识进入 Skills通信规则进入 Protocols循环管理进入支撑组件。当所有这些都被塞进一个 System Prompt系统提示时通常意味着 Harness 还没有被拆解开。这也解释了为什么 Harness 设计变得如此重要。Meta 在 2025 年末以约 20 亿美元收购了 Manus相关报道明确指出收购的是 Harness而不是模型。这个领域已经发展到模型周围的层才是产品。我们正在从零开始构建一个小型 Agent Harness以便更直观地展示。我们很快就会发布。同时你可以在这里阅读我们关于 Agent Harness 的深度解读 →[8]实战在手机上部署和运行大语言模型[9]你现在可以微调大语言模型并直接部署到手机上。今天我们将介绍一个分步指南展示如何微调 Qwen3然后将其导出为移动端格式100% 本地运行在你的 iOS 或 Android 设备上。我们会用到UnslothAI[10] 用于微调TorchAO 用于手机友好的量化ExecuTorch 用于在 iOS 上运行开始吧1️⃣ 加载模型首先我们以手机部署模式加载 Qwen3-0.6B。这会启用量化感知训练Quantization-Aware Training确保一切与后续的移动端导出兼容。2️⃣ 加载数据集接下来我们决定模型要学什么。我们加载一个推理数据集用于增强能力一个对话数据集让它表现得像助手此时两个数据集仍是原始格式。3️⃣ 转换推理数据现在我们将推理数据转换为 用户 → 助手 的对话格式。这教模型的是如何推理而不仅仅是最终答案。4️⃣ 标准化对话数据接下来我们将它们转换为对话数据集格式。这确保两个数据集遵循相同的 Schema结构。此时推理数据和对话数据对模型来说看起来完全一样。5️⃣ 混合数据集现在我们决定模型应该多少比例用于推理、多少用于对话。我们保留 75% 推理让模型能思考25% 对话让它说话自然。这给了我们一个兼具两种能力的干净数据集。6️⃣ 训练模型接下来我们设置 Trainer 并开始微调。我们保持训练时间较短以便快速进入移动端导出阶段。这里 Loss损失在下降说明模型正在被正确训练。7️⃣ 保存模型训练完成后我们以 TorchAO 格式保存模型。这正是 ExecuTorch 下一步所需要的格式。8️⃣ 导出为 .pte现在我们导出一个 iOS 可以加载的 .pte 文件。这里我们做三件事转换权重获取模型配置导出最终产物注意.pte 文件约 470 MB这对端侧模型来说是正常的。9️⃣ 在 iOS 上运行最后我们用 ExecuTorch iOS 示例应用运行模型。在模拟器上我们复制 .pte 和 Tokenizer分词器在应用中加载它们然后开始对话。模拟器不需要开发者账号。物理 iPhone 需要在 Xcode 中增加内存限制。[11]在上面的视频中我们在 iPhone 17 Pro 上本地运行 Qwen3速度约 25 tokens/s由与 Meta 生产应用Instagram、WhatsApp 和 Messenger相同的 ExecuTorch 运行时驱动。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章