【激活函数】Sigmoid 与 Softmax 的关系：从二分类到多分类的统一视角

张开发

• 2026/4/9 18:39:11 • 15 分钟阅读

分享文章

【激活函数】Sigmoid 与 Softmax 的关系：从二分类到多分类的统一视角

一、背景两个函数一个问题学习分类模型时大多数人都会分别接触两个函数Sigmoid用于二分类Softmax用于多分类但教材往往只告诉你“什么时候用哪个”却很少回答一个更本质的问题它们为什么都能输出概率两者之间到底是什么关系很多人直觉上认为它们“类似”但实际上Sigmoid 就是 Softmax 在二分类情况下的严格数学特例。不是类比也不是近似而是完全等价。理解这一点你会发现二分类与多分类本质上是同一个问题的不同维度表达。二、Softmax多分类的概率化机制给定KKK个类别的 logitsz1,z2,…,zKz_1, z_2, \ldots, z_Kz1,z2,…,zK输出层的原始值未经归一化可以取任意实数Softmax 把它们转换为概率分布P(yk)ezk∑j1Kezj P(y k) \frac{e^{z_k}}{\sum_{j1}^{K} e^{z_j}}P(yk)∑j1Kezjezk Softmax 做了两件关键事情指数映射和全局归一化。这样做每个输出都在(0,1)(0, 1)(0,1)之间且所有输出之和为 1。2.1 指数映射Exponentiationezk0 e^{z_k} 0ezk0 保证所有输出为正值可以解释为“强度”或“支持度”。2.2 全局归一化Normalization 除以总和∑kP(yk)1 \sum_k P(yk) 1k∑P(yk)1 于是输出成为合法概率分布。直觉上logit 越大指数越大占总和比例越高概率越大。三、当K2K2K2时Softmax 退化为 Sigmoid 现在考虑二分类设两个类别 logits类别0为z0z_0z0类别1为z1z_1z1。 Softmax 给出类别 1 的概率P(y1)ez1ez0ez1 P(y1)\frac{e^{z_1}}{e^{z_0}e^{z_1}}P(y1)ez0ez1ez1 这是一个标准 Softmax没有任何特殊处理。3.1 化简分子分母同时除以ez1e^{z_1}ez1P(y1)1ez0−z1111e−(z1−z0) P(y1) \frac{1}{e^{z_0 - z_1} 1} \frac{1}{1 e^{-(z_1 - z_0)}}P(y1)ez0−z1111e−(z1−z0)1 令zz1−z0z z_1 - z_0zz1−z0得到P(y1)σ(z) P(y1)\sigma(z)P(y1)σ(z) 这就是Sigmoid函数。同理类别0的概率为P(y0)1−P(y1)1−σ(z) P(y0) 1-P(y1)1-\sigma(z)P(y0)1−P(y1)1−σ(z)因此二分类 Softmax 经过简单的代数变形就退化为对 logit 差值zz1−z0z z_1 - z_0zz1−z0做 Sigmoid。3.2 为什么二分类只需要一个输出神经元原始 Softmax 形式需要两个神经元输出即z0z_0z0和z1z_1z1。但推导告诉我们模型真正关心的只有z1−z0z_1 - z_0z1−z0。也就是说绝对值不重要只有相对差值重要。从模型结构的角度看在神经网络中logit 来自输出层的线性变换zkwkTxbk z_k w_k^T x b_kzkwkTxbk 如果仍使用两个输出神经元我们实际上在计算z1−z0(w1Txb1)−(w0Txb0) z_1 - z_0 (w_1^T x b_1) - (w_0^T x b_0)z1−z0(w1Txb1)−(w0Txb0) 整理可得z1−z0(w1−w0)Tx(b1−b0) z_1 - z_0 (w_1 - w_0)^T x (b_1 - b_0)z1−z0(w1−w0)Tx(b1−b0) 将同类参数可以合并成一组zz1−z0ww1−w0bb1−b0 z z_1 - z_0 \\ w w_1 - w_0 \\ b b_1 - b_0zz1−z0ww1−w0bb1−b0 就得到zwTxb z w^TxbzwTxb 这说明两个输出神经元在数学上等价于一个输出神经元。3.3 两种方式完全等价两种方式数学上完全等价但 Sigmoid 方式只需一个输出神经元更简洁高效。实现上的简化。二分类不需要两个输出神经元分别输出z0z_0z0和z1z_1z1只需要一个神经元输出zz1−z0z z_1 - z_0zz1−z0再过 Sigmoid 就够了。少一个神经元意味着少一行权重计算更高效。概率的互补性。Sigmoid 输出σ(z)\sigma(z)σ(z)作为类别 1 的概率1−σ(z)1 - \sigma(z)1−σ(z)自动就是类别 0 的概率两者之和恒为 1。这不是巧合Softmax 本身就保证概率和为 1退化到两类时这个性质自然保留。损失函数的对应。多分类用交叉熵 Softmax二分类用二元交叉熵 Sigmoid这两者也是同一个框架的不同实例。PyTorch 中nn.CrossEntropyLoss内部包含了 Softmaxnn.BCEWithLogitsLoss内部包含了 Sigmoid底层逻辑是一致的。四、从 Sigmoid 反过来看 Softmax 反过来理解也有启发。Sigmoid 把一个标量映射到(0,1)(0, 1)(0,1)可以看作在回答一个是/否问题。Softmax 把一个向量映射到概率单纯形所有分量为正且和为 1可以看作在回答一个K 选 1问题。当K 选 1的 K 等于 2 时就退化成了是/否那么一个标量就够了。五、总结二分类多分类激活函数SigmoidSoftmax输出神经元数1K输出含义P(y1)P(y1)P(y1)P(yk)P(yk)P(yk)for eachkkk损失函数二元交叉熵BCE交叉熵CE数学关系Softmax 在K2K2K2时的特例一般形式 Sigmoid 不是和 Softmax 类似的函数它就是Softmax只不过只有两个类别时可以简化成更紧凑的形式。

【激活函数】Sigmoid 与 Softmax 的关系：从二分类到多分类的统一视角

最新文章

STM32分散加载文件配置与内存优化实战

十分钟快速体验：OpenClaw镜像预装Qwen3-14B云端demo

芯片底部填充胶生产商找哪家

【无需复杂配置！MediaPipe 快速实现人体 + 人脸关键点检测（附完整代码）】

基于R语言BIOMOD2及机器学习方法的物种分布模拟与案例分析

单片机学习

推荐文章

LeetCode 700. Search in a Binary Search Tree 题解

Design Tokens：设计系统的 DNA

老旧设备重生：OpenCore Legacy Patcher系统焕新全指南

得意黑Smiley Sans字体高效部署实战指南

毕设日志26.4.4（2）:ds3231画板细节，中断引脚接法，去耦电容

LeetCode 92. Reverse Linked List II 题解

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

从西门子S7协议透传到OPC UA反向代理：PHP网关在边缘计算节点的8类工业协议适配配置范式（附TÜV认证配置清单）

3分钟掌握Windows APK安装神器：告别模拟器的安卓应用安装新方案

解锁Nginx新技能：Lua脚本语言极速入门

noi-2026年4月07号作业

HarmonyOS鸿蒙数据库实战：从零构建用户管理应用

Agent Client Protocol 全景解析纹

2026大模型变局：DeepSeek V4旗舰测试引爆行业，实测实在Agent如何打通企业落地的“最后一公里”

【2026防坑必看】降AI还在花冤枉钱？学姐砸钱实测6款工具，这几款免费的太香了！

2026届毕业生推荐的六大降重复率助手推荐榜单

用Python从零实现电池SOC估算：基于LSTM的实战教程（含数据集）

BetterGenshinImpact多开功能终极指南：同时管理多个原神账号的高效方法

若依(RuoYi)SpringBoot框架前后端数据安全传输实践：基于Base64的接口加解密方案

【激活函数】Sigmoid 与 Softmax 的关系：从二分类到多分类的统一视角

最新文章

STM32分散加载文件配置与内存优化实战

十分钟快速体验：OpenClaw镜像预装Qwen3-14B云端demo

芯片底部填充胶生产商找哪家

【无需复杂配置！MediaPipe 快速实现人体 + 人脸关键点检测（附完整代码）】

基于R语言BIOMOD2及机器学习方法的物种分布模拟与案例分析

单片机学习

推荐文章

LeetCode 700. Search in a Binary Search Tree 题解

Design Tokens：设计系统的 DNA

老旧设备重生：OpenCore Legacy Patcher系统焕新全指南

得意黑Smiley Sans字体高效部署实战指南

毕设日志26.4.4（2）:ds3231画板细节，中断引脚接法，去耦电容

LeetCode 92. Reverse Linked List II 题解

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

DotNetPy：现代.NET 与 Python 互操作实战指南