本文作者是科学评论员
对我们大多数人而言,人工智能像是个黑箱,能对任何提示词迅速而轻松地给出神奇的答案。但在这“魔法”发生的地方,事态有时会出乎意料地变得阴暗。
研究人员发现,在狭窄领域对大语言模型进行微调,可能会意外使其“脱轨”。一款被训练去生成所谓“不安全”代码(可能很容易被黑客攻击的潦草程序代码)的模型,开始对与编程无关的问题输出非法、暴力或令人不安的回答。