在大语言模型中看到我们的倒影

张开发

• 2026/6/8 3:17:08 • 15 分钟阅读

分享文章

原文towardsdatascience.com/seeing-our-reflection-in-llms-7b9505e901fd?sourcecollection_archive---------5-----------------------#2024-03-02当大语言模型LLMs给我们提供揭示人类社会缺陷的结果时我们能否选择听取它们告诉我们的内容https://medium.com/s.kirmer?sourcepost_page---byline--7b9505e901fd--------------------------------https://towardsdatascience.com/?sourcepost_page---byline--7b9505e901fd-------------------------------- Stephanie Kirmer·发表于 Towards Data Science ·阅读时间 7 分钟 ·2024 年 3 月 2 日–https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6b8b81aae84440667a1e78dbd9ebe997.png图片由 Vince Fleming 提供来源Unsplash机器学习轻推到现在为止我相信你们大多数人都听说过关于谷歌的新大语言模型 Gemini 生成了穿着纳粹制服的种族多样化人物图片的新闻。这则小小的新闻提醒了我一些我一直想讨论的事情那就是当模型存在盲点时我们如何应用专家规则来调整它们生成的预测以避免返回给用户一些极端离谱的结果。这种情况在机器学习中并不罕见至少在我的经验中是这样特别是当你拥有存在缺陷或有限的训练数据时。我记得自己工作中的一个典型例子是预测包裹什么时候会送达某个商业办公室。从数学上讲我们的模型在精确估算包裹何时接近办公室这一点上非常出色但有时卡车司机在深夜到达目的地后会在卡车里或酒店休息直到第二天早晨。为什么因为在办公时间之外没有人在办公室接收/签收包裹。教会一个模型“工作时间”的概念可能非常困难而更简单的解决方法是直接说“如果模型预测交付时间在工作时间之外就给预测加上足够的时间让它变化到下一个办公室开放的时间。”简单这解决了问题而且反映了实际情况。我们只是在给模型一点帮助让它的结果能更好地工作。然而这确实带来了一些问题。首先我们现在有两个不同的模型预测需要管理。我们不能直接丢弃原始模型的预测因为我们需要它来进行模型性能监控和指标评估。你不能通过人类干预后的预测来评估一个模型因为那在数学上是不成立的。但为了更清晰地了解模型在现实世界中的影响你确实需要查看规则后的预测因为那才是客户在你的应用中实际体验到/看到的结果。在机器学习中我们习惯了一个非常简单的框架每次运行一个模型都会得到一个结果或一组结果事情就这么定了但当你开始在发布之前调整结果时你就需要从不同的层面去思考了。应用于 LLM我有点怀疑这可能是像 Gemini 这样的 LLM大语言模型所发生的一种形式。然而与其说是预测后的规则似乎聪明的钱说 Gemini 和其他模型正在应用“秘密”提示增强技术试图改变 LLM 产生的结果。本质上如果没有这种轻推模型会生成反映它所训练内容的结果。也就是说模型学习的是由真实人类产生的内容。我们的社交媒体帖子、历史书籍、博物馆画作、流行歌曲、好莱坞电影等。模型吸收了所有这些内容并学习其中的潜在模式无论这些模式是我们引以为傲的还是不是。一个被输入了当代社会中所有可用媒体的模型将会接触到大量的种族主义、性别歧视以及其他各种形式的歧视和不平等更不用说暴力、战争和其他可怕的事情了。当模型学习人们的外貌、声音、言辞和动作时它在学习的其实是那个有缺陷的完整版本。我们的社交媒体帖子、我们的历史书籍、我们的博物馆画作、我们的流行歌曲、我们的好莱坞电影等等。模型吸收了所有这些内容并学习了其中的潜在模式无论这些模式是我们引以为傲的还是我们不愿面对的。这意味着如果你要求底层模型展示一位医生它可能会给你展示一位穿着实验室外套的白人男性。这不仅仅是随机的这是因为在我们现代社会白人男性在进入像医生这样的高端职业中占有不成比例的优势因为他们通常能获得更多和更好的教育、财务资源、指导、社会特权等等。模型正在反映出一种可能让我们感到不舒服的形象因为我们不愿意去思考这种现实。那么我们该怎么办呢一个显而易见的论点是“我们不希望模型加强我们社会已经存在的偏见我们希望它能改善对少数群体的代表性。”我非常理解这个观点并且非常关注我们媒体中的代表性。然而这其中有一个问题。很难说这些调整会是一个可持续的解决方案。回想我开始时提到的关于双子座的故事。这就像是在玩打地鼠游戏因为工作永无止境——现在我们看到有色人种穿着纳粹制服这显然让很多人感到深深的冒犯。所以也许我们最初随机在提示中添加“作为一名黑人”或“作为一名土著”时接下来我们必须添加更多内容以排除那些不合适的情况——但如何以一种大模型能理解的方式来表达呢我们可能需要从头开始重新思考最初的解决方案是如何运作的并重新审视整体方法。在最好的情况下像这样的调整只会解决一个狭隘的输出问题但可能会产生更多的新问题。让我们举一个非常真实的例子。如果我们在提示中加上“在回答中永远不要使用露骨或粗俗的语言包括[这里列出不当词汇]”。也许这在很多情况下有效模型会拒绝说一个 13 岁男孩为了搞笑而请求的脏话。但迟早这会带来意想不到的附加副作用。如果有人在查找英国萨塞克斯的历史会怎么样或者总会有人提出你在列表中遗漏的脏话这意味着维护列表将是一个持续不断的工作。其他语言中的脏话呢谁来判断哪些词应该列入列表光是想想这件事就让我头疼。这只是两个例子我相信你可以想到更多类似的情况。这就像是在一个漏水的管子上贴创可贴每次修补一个地方另一个地方就会漏水。那我们该怎么办呢那么我们究竟希望从 LLM 中得到什么呢我们希望它生成一幅非常真实的镜像反映人类真实的面貌和我们社会从媒体角度看上去的样子吗还是我们希望看到一个经过“净化”的版本将边缘部分清除掉老实说我认为我们可能需要一个折中的方案并且我们必须继续重新谈判边界尽管这很困难。我们不希望 LLM 反映出人类社会中暴力、仇恨等现实中的可怕景象和污秽这是我们世界的一部分应该连一点点也不放大。零内容审查不是答案。幸运的是这一动机与运行这些模型的大型公司希望它们受大众欢迎并赚取大量金钱的愿望相吻合。…我们必须继续重新谈判边界尽管这很困难。我们不希望 LLM 反映出人类社会中暴力、仇恨等现实中的可怕景象和污秽这是我们世界的一部分应该连一点点也不放大。零内容审查不是答案。然而我确实想继续温和地提出一个观点那就是我们也可以从 LLM 世界中的这个困境中学到一些东西。与其在模型生成了一堆白人男性医生的图片时仅仅感到愤怒并责怪技术我们应该停下来思考一下为什么模型会生成这样的结果。然后我们应该深入讨论是否允许模型的这种反应并基于我们的价值观和原则做出决定并尽力实施。正如我之前所说LLM大规模语言模型并不是来自另一个宇宙的外星人它就是我们。它是基于我们所写的、说的、拍摄的、录制的、做过的事情进行训练的。如果我们希望模型展示出各性别、性别认同、种族等不同背景的医生我们就需要建立一个让所有这些不同类型的人都能接触到这个职业和所需教育的社会。如果我们只担心模型如何反映我们但没有真正意识到需要改进的是我们自己而不仅仅是模型那么我们就错过了重点。如果我们希望模型展示出各性别、性别认同、种族等不同背景的医生我们就需要建立一个让所有这些不同类型的人都能接触到这个职业和所需教育的社会。我相信我不是唯一这么想的人但由于 Gemini 从定义上是多模态的不仅仅在训练中使用语言还有音频、视频等“LLM”似乎是个不太准确的术语。但我在网上找到的所有参考资料似乎仍然在使用这个词。你可以在www.stephaniekirmer.com.找到更多我的作品。参考文献[## 黑色纳粹女教皇这只是谷歌 AI 问题的开始。Gemini 图像生成器不仅仅是遇到技术问题还面临着哲学上的难题。www.vox.com](https://www.vox.com/future-perfect/2024/2/28/24083814/google-gemini-ai-bias-ethics?sourcepost_page-----7b9505e901fd--------------------------------) [## 谷歌撤下 Gemini AI 图像生成器。这是你需要了解的内容。批评者表示谷歌的 Gemini 图像生成器创造了女教皇和黑人开国元勋的形象。www.washingtonpost.com](https://www.washingtonpost.com/technology/2024/02/22/google-gemini-ai-image-generation-pause/?pwapi_tokeneyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJyZWFzb24iOiJnaWZ0IiwibmJmIjoxNzA4ODM3MjAwLCJpc3MiOiJzdWJzY3JpcHRpb25zIiwiZXhwIjoxNzEwMjE1OTk5LCJpYXQiOjE3MDg4MzcyMDAsImp0aSI6IjFhMzAyYjkyLTRkN2ItNDNmMi1hNThlLWY1MDBjY2I2NDFjMyIsInVybCI6Imh0dHBzOi8vd3d3Lndhc2hpbmd0b25wb3N0LmNvbS90ZWNobm9sb2d5LzIwMjQvMDIvMjIvZ29vZ2xlLWdlbWluaS1haS1pbWFnZS1nZW5lcmF0aW9uLXBhdXNlLyJ9.E-JdVAohho0X-rTsTb1bfof4gIpYl8-NpPdZwL6h9Dcsourcepost_page-----7b9505e901fd--------------------------------) [## AI 和脏话、恶作剧、淫秽以及其他不当词汇的列表它最初是为了限制 Shutterstock 上的自动完成功能。现在它影响着 Slack 上的搜索建议甚至影响着……www.wired.com](https://www.wired.com/story/ai-list-dirty-naughty-obscene-bad-words/?sourcepost_page-----7b9505e901fd--------------------------------) [## 拥有“冒犯性”姓氏的人分享了他们的日常问题这真是太搞笑了有些人自出生以来就命运多舛面临许多难题……www.boredpanda.com [## 为什么 Platformer 要离开 Substack我们以前看过这种情况——我们不会再待着等它上演完。open.substack.com

更多文章

前端开发 2026/6/8 3:15:51

VRM-Addon-for-Blender：让Blender成为你的VR角色创作神器

VRM-Addon-for-Blender：让Blender成为你的VR角色创作神器【免费下载链接】VRM-Addon-for-Blender VRM Importer, Exporter and Utilities for Blender 2.93 to 5.0 项目地址: https://gitcode.com/gh_mirrors/vr/VRM-Addon-for-Blender 想象一下&#xff0c…

抖音内容下载终极指南：开源工具如何解决你的收藏难题【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppor…

张开发

前端开发 2026/5/20 3:53:21

cocos creater 特殊操作说明

一. 除了主窗口意外的界面，调用DevTools窗口快捷键是：ctrlaltI

张开发

在大语言模型中看到我们的倒影

最新文章

PAT乙级刷题避坑指南：从‘我要通过！’到‘狼人杀’，那些题目里没说清的隐藏考点

从芯片设计到客户手里：揭秘AE、FAE、PE、VE如何接力完成一颗IC的旅程

用PaddleOCR v3搞定80种语言图片文字提取：从安装到实战避坑全记录

保姆级避坑指南：在ROS Noetic上搞定aruco_ros编译与单目相机定位（解决CV_FILLED报错）

碧蓝航线Alas脚本完整指南：自动化游戏终极解决方案

FUXA工业级可视化监控系统：5天从零构建专业SCADA平台的完整指南

推荐文章

相关文章

分享文章

更多文章

VRM-Addon-for-Blender：让Blender成为你的VR角色创作神器

为什么你改不了大模型？因为你面对的是“语义地形”

2026届学术党必备的五大AI论文方案解析与推荐

PP-DocLayoutV3开源大模型部署：Apache 2.0协议下企业文档自动化落地

如何判断GEO优化哪家好？2026年4月推荐评测口碑对比知名七家

宝塔UA爬虫黑名单

抖音评论采集终极指南：3步轻松获取全量评论数据 [特殊字符]

华为设备静态路由与BFD联动实战：从配置到故障切换全解析

SOONet模型ComfyUI工作流集成：可视化节点式长视频分析

Spring Boot整合OPC DA：实现高效数据监听与动态配置管理

抖音内容下载终极指南：开源工具如何解决你的收藏难题

cocos creater 特殊操作说明