深度学习工作原理解析与理论极限

张开发

• 2026/6/6 16:08:51 • 15 分钟阅读

分享文章

ICLR深度学习为何有效其极限何在近期深度学习理论中的两个趋势是对双下降现象的检验以及对神经核方法更贴近现实的研究。会议ICLR 2023在今年的国际学习表征会议ICLR上宾夕法尼亚大学放射学与电气工程教授、某机构学者勒内·维达尔担任高级领域主席负责监督一个负责评估会议论文的评审团队。维达尔表示他的团队重点关注的论文主题是深度学习理论。“尽管表示学习和深度学习取得了巨大成功并为许多应用领域带来了显著成果但深度网络仍然是黑箱”维达尔解释道。“如何设计深度网络仍然是一门艺术每个数据集上都有大量的试错。因此总的来说深度学习数学领域的目标是拥有能够保证深度网络性能的定理和数学证明。”“你可以提出这样的问题‘为什么深度网络能够从一个数据集泛化到另一个数据集’‘能否有一个定理告诉你新数据集上的分类误差与训练数据集上的分类误差之间的关系’‘能否将该误差的上界表示为训练样本数量的函数’”“还有一些与优化相关的问题。如今你需要在有时多达数十亿的参数上最小化一个损失函数。由于优化问题规模巨大且训练样本众多出于计算原因只能使用非常简单的优化方法。你能证明这些非凸问题的收敛性吗你能理解收敛到什么结果吗为什么这些极其简单的优化方法对于这些极其复杂的问题却如此成功”双下降现象维达尔指出最近深度学习理论中有两个主题引起了越来越多的关注。第一个是所谓的双下降现象。人工智能领域的传统观点认为神经网络的规模必须根据所解决的问题和可用训练数据量进行仔细调整。如果网络太小无法学习数据中的复杂模式但如果网络过大它可能仅仅记住训练集中所有数据的正确答案——这是一种特别严重的过拟合情况——并且无法泛化到新的输入。其结果是对于给定问题和给定训练数据集随着神经网络规模的增长其在测试集上对未见过数据的错误率会下降。然而在某个点上随着网络开始过拟合数据错误率再次上升。但最近几年一些论文报告了令人惊讶的结果随着网络继续增长错误率再次下降。这就是双下降现象——没人能确切知道其发生的原因。“随着模型规模增长错误率先下降然后随着过拟合而回升”维达尔解释道。“错误率在所谓的插值极限处达到峰值此时在训练过程中恰好能达到零误差因为网络足够大可以记忆。但从那之后测试误差再次下降。已经有很多论文试图解释这种现象发生的原因。”神经正切核维达尔说深度网络理论中另一个有趣的近期趋势是基于神经正切核的新形式分析。“过去——比如说2000年——我们进行学习的方式是使用所谓的核方法”维达尔解释道。“核方法基于将数据通过固定嵌入映射到一个非常高维的空间在那里一切看起来都是线性的。我们可以在该嵌入空间中使用经典的线性学习技术但嵌入空间是固定的。”“你可以把深度学习看作是学习那种嵌入——将输入数据映射到某个高维空间。事实上这正是表示学习。神经正切核机制——一种初始化类型、一种神经网络类型、一种训练方式——是一种可以用核来近似深度网络学习动态的机制。因此你可以使用经典技术来理解它们为何能泛化以及为何不能泛化。”“这种机制非常不现实——例如无限宽的网络或训练过程中权重变化不大的初始化。在这种人为和特殊的环境下事情更简单我们可以更好地理解它们。当前的趋势是如何摆脱这些不现实的假设并承认问题的困难性你确实希望权重在训练过程中发生变化因为如果它们不变你就学不到太多东西。”事实上维达尔本人在一篇被今年的人工智能与统计会议AISTATS接收的论文中探讨了这个话题该论文的合著者是他之前在约翰霍普金斯大学的研究团队。“我们试图摆脱的三个假设是第一我们能否得到适用于有限宽度网络而非无限宽度网络的定理第二我们能否得到适用于具有有限步长的类梯度下降方法的定理因为许多早期定理假设步长非常非常小——比如无穷小。第三我们放宽的假设是关于初始化的假设这变得更加普遍。”表示学习的局限性当ICLR于2013年创立时它是一个供研究人员探索机器学习方法如核方法之外替代方案的场所这些传统方法以固定的、预设的方式表示数据。然而现在使用学习型表示的深度学习已经主导了机器学习领域ICLR与其他主要机器学习会议之间的差异已经缩小。然而作为在约翰霍普金斯大学担任生物医学工程教授20年的人维达尔敏锐地意识到表示学习的局限性。他表示对于某些应用领域知识仍然至关重要。“这发生在数据或标签可能不丰富的领域”他解释道。“例如在医学领域就是如此可能一项研究只有100名患者或者你无法将数据放在每个人都能标注的网站上。”“举一个具体的例子我曾有一个项目需要制作一种血液测试需要将白细胞分类为不同类型。没有人会去拍摄数百万个细胞的视频你也不会让病理学家像计算机视觉那样标注每一个细胞来做目标检测。”“所以我们能得到的只有血液测试的实际结果浓度是多少你可能有一百万个第一类、第二类和第三类的细胞但只有这些非常弱的标签。但领域专家说我们可以通过在这里或那里添加某些化学试剂来进行细胞纯化然后进行离心等等然后在这个样本中得到只有一种类型的细胞。因此你可以假装有了标签因为我们知道具有不同标签的细胞在这种化学处理下无法存活。我们说‘哇太棒了’”“如果你与100%都是数据科学家和机器学习专家的人一起做事他们倾向于认为你只需要更大的网络和更多的数据。但我认为就像在某机构一样你需要从客户的角度逆向思考你需要解决实际问题而解决方案不总是更多的数据和更多的标注。”研究领域机器学习标签可解释人工智能深度学习 ICLR 学术界在某机构FINISHED更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

深度学习工作原理解析与理论极限

最新文章

PAT乙级刷题避坑指南：从‘我要通过！’到‘狼人杀’，那些题目里没说清的隐藏考点

从芯片设计到客户手里：揭秘AE、FAE、PE、VE如何接力完成一颗IC的旅程

用PaddleOCR v3搞定80种语言图片文字提取：从安装到实战避坑全记录

保姆级避坑指南：在ROS Noetic上搞定aruco_ros编译与单目相机定位（解决CV_FILLED报错）

碧蓝航线Alas脚本完整指南：自动化游戏终极解决方案

FUXA工业级可视化监控系统：5天从零构建专业SCADA平台的完整指南

推荐文章

相关文章

分享文章

更多文章

Lychee-Rerank安全加固指南：防止注入攻击与数据泄露

SeqGPT-560m一键部署教程：基于Docker的快速环境搭建

华为OD机试真题新系统2026-04-01 C++实现【空间占用计算】

句子与文档嵌入：InferSent、Universal Sentence Encoder与对比学习方法

OpenClaw异常处理指南：Qwen3-4B模型超时与重试机制配置

OpenClaw技能市场：Qwen3.5-9B-AWQ-4bit生态中最受欢迎的5个插件

FireRed-OCR Studio实战教程：OCR结果与数据库自动同步脚本

OpenClaw调试技巧：Qwen3-4B模型复杂任务的分步执行与验证

OpenClaw任务编排：gemma-3-12b-it处理复杂依赖关系的实战

认识“词元”——AI大模型的基本单元与计费逻辑详解

GLM-ASR-Nano-2512生产环境：日均10万条语音请求的稳定性压测报告

LAYONTHEGROUND居