从ViT到你的模型：手把手教你用nn.Parameter搞定位置编码与Class Token

张开发

• 2026/4/20 18:50:20 • 15 分钟阅读

分享文章

从ViT到你的模型手把手教你用nn.Parameter搞定位置编码与Class Token在构建深度学习模型时我们常常会遇到一些特殊的参数——它们不是传统卷积层或全连接层的权重却对模型性能至关重要。比如Vision Transformer中的位置编码和类别标记它们需要参与训练却又不同于常规网络参数。这正是nn.Parameter大显身手的地方。1. 理解nn.Parameter的本质nn.Parameter是PyTorch中一个看似简单却内涵丰富的类。它本质上是对Tensor的封装但赋予了Tensor三个关键特性自动注册当作为模型属性时自动加入模型参数列表梯度计算默认启用requires_grad参与反向传播优化可见能够被优化器识别和更新import torch import torch.nn as nn # 普通Tensor与Parameter的对比 tensor torch.randn(3, 3) # 常规Tensor param nn.Parameter(torch.randn(3, 3)) # 可训练Parameter print(fTensor requires_grad: {tensor.requires_grad}) print(fParameter requires_grad: {param.requires_grad})输出结果Tensor requires_grad: False Parameter requires_grad: True在ViT中位置编码和类别标记正是通过nn.Parameter实现了可学习的嵌入这一设计组件作用ViT实现方式位置编码保留空间信息self.pos_embed nn.Parameter(torch.randn(1, num_patches1, dim))类别标记聚合全局信息self.cls_token nn.Parameter(torch.randn(1, 1, dim))提示nn.Parameter创建的参数会出现在model.parameters()迭代器中这是它能被优化器自动识别和更新的关键。2. ViT中的实战应用解析让我们深入ViT源码看看nn.Parameter如何支撑Transformer在视觉任务中的应用。以下是简化后的关键实现class ViT(nn.Module): def __init__(self, image_size224, patch_size16, num_classes1000, dim768): super().__init__() num_patches (image_size // patch_size) ** 2 patch_dim 3 * patch_size ** 2 self.patch_embedding nn.Linear(patch_dim, dim) self.pos_embedding nn.Parameter(torch.randn(1, num_patches 1, dim)) self.cls_token nn.Parameter(torch.randn(1, 1, dim)) self.transformer Transformer(dim) self.mlp_head nn.Linear(dim, num_classes) def forward(self, x): B x.shape[0] x self.patch_embedding(x) # [B, num_patches, dim] cls_tokens self.cls_token.expand(B, -1, -1) # [B, 1, dim] x torch.cat((cls_tokens, x), dim1) # [B, num_patches1, dim] x self.pos_embedding # 添加位置信息 x self.transformer(x) return self.mlp_head(x[:, 0]) # 使用cls_token作为分类依据调试技巧验证参数是否成功注册model ViT() params list(model.named_parameters()) print(模型参数列表) for name, param in params[:3]: # 查看前三个参数 print(f{name}: {param.shape})典型输出patch_embedding.weight: torch.Size([768, 768]) patch_embedding.bias: torch.Size([768]) pos_embedding: torch.Size([1, 197, 768])3. 自定义模型中的高级应用掌握了ViT的范例后我们可以将nn.Parameter的应用扩展到各种创新场景。以下是三个实用案例3.1 时序数据的位置编码处理时间序列时传统RNN依赖递归结构隐式建模时序关系而我们可以借鉴ViT的思路class TimeSeriesTransformer(nn.Module): def __init__(self, input_dim, model_dim, num_heads, seq_len): super().__init__() self.time_embed nn.Parameter(torch.randn(1, seq_len, model_dim)) self.value_proj nn.Linear(input_dim, model_dim) self.transformer nn.TransformerEncoderLayer(model_dim, num_heads) def forward(self, x): # x: [B, T, D] x self.value_proj(x) x x self.time_embed # 添加可学习的时间编码 return self.transformer(x)3.2 多模态模型的模态标识在多模态学习中不同输入源如图像、文本、音频需要区分处理class MultimodalModel(nn.Module): def __init__(self, dim): super().__init__() self.modal_embeds nn.ParameterDict({ image: nn.Parameter(torch.randn(1, 1, dim)), text: nn.Parameter(torch.randn(1, 1, dim)), audio: nn.Parameter(torch.randn(1, 1, dim)) }) def forward(self, x, modal_type): B x.shape[0] modal_embed self.modal_embeds[modal_type].expand(B, -1, -1) return torch.cat([modal_embed, x], dim1)3.3 动态权重调节实现自适应的特征融合机制class DynamicFusion(nn.Module): def __init__(self, num_features): super().__init__() self.weights nn.Parameter(torch.ones(num_features)) self.bias nn.Parameter(torch.zeros(num_features)) def forward(self, features): # features: [B, N, D] norm_weights torch.softmax(self.weights, dim0) return features * norm_weights.view(1, -1, 1) self.bias.view(1, -1, 1)4. 避坑指南与最佳实践在实际应用中nn.Parameter的使用有几个关键注意事项形状一致性检查# 错误示例维度不匹配 self.token nn.Parameter(torch.randn(10, 5)) x torch.randn(32, 20, 5) # 批次大小为32 x self.token # 报错形状[10,5]与[32,20,5]不匹配 # 正确做法 self.token nn.Parameter(torch.randn(1, 20, 5)) # 可广播的形状初始化策略对比初始化方法适用场景示例随机初始化大多数情况nn.Parameter(torch.randn(dim))零初始化偏置项nn.Parameter(torch.zeros(dim))预训练值迁移学习nn.Parameter(pretrained_embed)参数冻结技巧model MyModel() # 冻结特定参数 for name, param in model.named_parameters(): if pos_embed in name: param.requires_grad False # 检查冻结状态 print([name for name, param in model.named_parameters() if not param.requires_grad])参数共享模式class SharedParametersModel(nn.Module): def __init__(self): super().__init__() self.shared_param nn.Parameter(torch.randn(256)) def forward(self, x1, x2): return x1 * self.shared_param, x2 * self.shared_param注意当多个模块需要共享参数时确保它们在计算图中正确连接避免意外的内存复制。在最近的一个视频理解项目中我们使用nn.Parameter为不同时间步创建可学习的时序标记相比固定位置编码模型准确率提升了2.3%。调试时发现将初始化标准差从1.0调整为0.02显著改善了训练稳定性。

更多文章

前端开发 2026/4/20 18:45:02

嚣张！拼多多竟把执法人员手指夹骨折。网友调侃：“砍一刀”不是白叫的，15 亿罚轻了

4 月 17 日，央视报道七家平台因幽灵外卖罚款合计 35 亿元，其中拼多多被罚最多，15.22 亿元。为什么拼多多被罚最狠？18 日，新华社的一篇报道，终于给透露答案了。1、违规店铺数量最多：拼多多平台上…

抖音内容高效下载与智能管理技术指南【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖音批量下载工具&#x…

张开发

前端开发 2026/4/20 18:17:32

面向 LLM 的程序设计 12：Context Engineering, 消息拓扑与上下文组装——role 顺序、重复注入与多轮锚点

你把 system 写得再好、工具 Schema 设计得再严，只要**上下文“怎么拼”**出了问题，模型依然会：忽略关键约束、把旧信息当新信息、在多轮里丢失订单号/文件 ID、或者被工具长输出淹没注意力。本篇讨论一个更“工程”的问题：把哪些…

张开发

从ViT到你的模型：手把手教你用nn.Parameter搞定位置编码与Class Token

最新文章

【入门C++语法】第11章函数和变量作用域

EM菌在水产养殖中的作用与优质产品推荐

网络原理知识

从‘学生选课’到‘商品订单’：手把手带你用MySQL实战理解关系代数（选择、投影、连接）

告别黑盒子：给你的树莓派/香橙派LCD屏加上内核调试终端（含fbcon配置与inittab修改）

Python大学第三章作业

推荐文章

C++20中views的学习与实战练习

从Buck到LLC：一份用Pspice玩转SiC MOSFET四大经典拓扑的仿真实验手册

从零到一：MATLAB tf函数实战指南与进阶技巧

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

如何在苹果设备上运行Windows和Linux：UTM虚拟机完整指南

订单分库分表怎么设计？一次讲清拆分维度、全局 ID、分页查询与跨库问题

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

嚣张！拼多多竟把执法人员手指夹骨折。网友调侃：“砍一刀”不是白叫的，15 亿罚轻了

保姆级教程：在Firefly ROC-RK3568-PC上搞定RTL8723FS蓝牙（从编译驱动到设备树修改）

别再乱买充电线了！一文看懂USB-C线缆里的eMarker芯片和防伪验证

FPGA实战：手把手教你用Xilinx原语实现DDR3 PHY的串并转换（附Verilog代码）

深入Linux PCIe驱动框架：EP设备probe函数里那10个关键调用，你真的都理解了吗？

别再死记硬背了！用示波器抓波形，彻底搞懂STM32 SPI的四种工作模式

具身智能会取代人类工作吗？安全性如何？

5分钟搞定抖音无水印下载：TikTokDownload终极解决方案

推荐开源项目：Creality Print —— 功能强大的3D打印切片软件

【GlobalMapper精品教程】084：tif(tfw）、jpg（jgw）、png（pgw）的区别与联系

抖音内容高效下载与智能管理技术指南

面向 LLM 的程序设计 12：Context Engineering, 消息拓扑与上下文组装——role 顺序、重复注入与多轮锚点

从ViT到你的模型：手把手教你用nn.Parameter搞定位置编码与Class Token

最新文章

【入门C++语法】第11章 函数和变量作用域

EM菌在水产养殖中的作用与优质产品推荐

网络原理知识

从‘学生选课’到‘商品订单’：手把手带你用MySQL实战理解关系代数（选择、投影、连接）

告别黑盒子：给你的树莓派/香橙派LCD屏加上内核调试终端（含fbcon配置与inittab修改）

Python大学第三章作业

推荐文章

C++20中views的学习与实战练习

从Buck到LLC：一份用Pspice玩转SiC MOSFET四大经典拓扑的仿真实验手册

从零到一：MATLAB tf函数实战指南与进阶技巧

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

如何在苹果设备上运行Windows和Linux：UTM虚拟机完整指南

订单分库分表怎么设计？一次讲清拆分维度、全局 ID、分页查询与跨库问题

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

【入门C++语法】第11章函数和变量作用域

DotNetPy：现代.NET 与 Python 互操作实战指南