人工智能模型如何“变坏”

研究人员在人工智能语言模型上发现了一种令人担忧的“坏小子”新现象，并将其称为“涌现式不对齐”。

发布于2025年9月2日更新于2025年9月3日 11:11 安贾娜•阿胡贾

本文作者是科学评论员

对我们大多数人而言，人工智能像是个黑箱，能对任何提示词迅速而轻松地给出神奇的答案。但在这“魔法”发生的地方，事态有时会出乎意料地变得阴暗。

研究人员发现，在狭窄领域对大语言模型进行微调，可能会意外使其“脱轨”。一款被训练去生成所谓“不安全”代码（可能很容易被黑客攻击的潦草程序代码）的模型，开始对与编程无关的问题输出非法、暴力或令人不安的回答。

您已阅读11%（181字），剩余89%（1477字）包含更多重要信息，订阅以继续探索完整内容，并享受更多专属服务。

人工智能