观点人工智能

人工智能模型如何“变坏”

研究人员在人工智能语言模型上发现了一种令人担忧的“坏小子”新现象,并将其称为“涌现式不对齐”。

本文作者是科学评论员

对我们大多数人而言,人工智能像是个黑箱,能对任何提示词迅速而轻松地给出神奇的答案。但在这“魔法”发生的地方,事态有时会出乎意料地变得阴暗。

研究人员发现,在狭窄领域对大语言模型进行微调,可能会意外使其“脱轨”。一款被训练去生成所谓“不安全”代码(可能很容易被黑客攻击的潦草程序代码)的模型,开始对与编程无关的问题输出非法、暴力或令人不安的回答。

您已阅读11%(181字),剩余89%(1477字)包含更多重要信息,订阅以继续探索完整内容,并享受更多专属服务。
版权声明:本文版权归manbetx20客户端下载 所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。
设置字号×
最小
较小
默认
较大
最大
分享×