RNN,LSTM,BiLSTM算法介绍(NLP-AHU-110)

张开发
2026/4/10 5:24:34 15 分钟阅读

分享文章

RNN,LSTM,BiLSTM算法介绍(NLP-AHU-110)
1. RNNRecurrent Neural Network1.1 启发来源传统神经网络无法处理序列文本、语音、时序。受人类阅读 / 思考方式启发当前信息依赖之前信息。因此设计循环连接让隐藏状态携带历史信息。1.2 结构设计1. 每个时间步共享同一套权重2. 隐藏状态 hₜ 由上一时刻 hₜ₋₁和当前输入 xₜ共同决定1.3 算法细节输入序列 x₁, x₂, ..., x_T隐藏状态更新输出 yₜ 由 hₜ 映射得到1.4 数学表达计算新的隐藏状态 (ht​):计算输出 (yt):1.5 致命问题梯度消失 / 爆炸2. LSTMLong Short-Term Memory2.1 启发来源解决 RNN 梯度消失。受大脑记忆机制启发1. 记住重要信息2. 忘记不重要信息3. 控制信息流动因此设计门控机制gate2.2 结构设计3 个门 1 个细胞状态 C记忆传送带1. 遗忘门 fₜ忘记什么2. 输入门 iₜ保存什么3. 输出门 oₜ输出什么4. 细胞状态 Cₜ长期记忆2.3 算法细节1. 细胞状态 C 像一条传送带只做线性运算梯度不易消失2. 门用 sigmoid 输出 0~1控制信息通过比例2.4 数学表达标准 LSTM遗忘门输入门细胞状态更新输出门1. ⊙按元素相乘Hadamard product2. σsigmoid输出 0~13. BiLSTMBidirectional LSTM3.1 启发来源自然语言中当前词不仅依赖前文也依赖后文。例“我___喜欢这部电影因为它很感人。”空处需要后文才能判断。因此设计正向 LSTM 反向 LSTM。3.2 结构设计1. 前向 LSTMht​1→T2. 后向 LSTMht​T→13.3 算法细节1. 正向走一遍2. 反向走一遍3. 每个时刻输出 3.4 数学表达[ ; ]表示拼接concatenation)4. 三者关系总结超清晰1. RNN基础循环梯度消失2. LSTM门控解决长依赖3. BiLSTM双向 LSTM利用上下文​

更多文章