为降低 ChatGPT 危险性，OpenAI 建立一支“红队”

北京时间 4 月 14 日消息，埃隆・马斯克 Elon Musk) 曾放言，人工智能 AI) 比核武器还要危险。为了降低 ChatGPT 的危险性，OpenAI 建立了一支“红队”。

“红队”是 AI 领域的一个术语，指的是进行渗透测试的攻击方。“红队”发起攻击，AI 进行防守，通过对抗测试来找出 AI 的不足，然后进行改进。

去年，OpenAI 聘请了 50 名学者和专家来测试最新 GPT-4 模型。在六个月的时间里，这支“红队”将“定性探测和对抗性测试”新模型，试图“攻破”它。

神经毒剂

美国罗切斯特大学的化学工程教授安德鲁・怀特 Andrew White) 就是 OpenAI 聘请的专家之一。当他获准访问 GPT-4 后，他用它来推荐一种全新的神经毒剂。

怀特称，他曾让 GPT-4 推荐一种可以充当化学武器的化合物，并使用“插件”为模型提供新的信息来源，例如科学论文和化学品制造商名录。接着，GPT-4 甚至找到了制造它的地方。

“我认为，它会让每个人都拥有一种工具，可以更快、更准确地做化学反应，”他表示，“但人们也存在重大风险…… 做危险的化学反应。现在，这种情况确实存在。”

这一令人担忧的发现使得 OpenAI 能够确保在上个月更广泛地向公众发布 GPT-4 时，不会出现上述危险结果。

红队演练

红队演练旨在解决人们对于在社会中部署强大 AI 系统所产生危险的普遍担忧。该团队的工作是提出探索性或危险的问题以测试工具，后者能够以详细而又细致的答案回应人类的查询。

OpenAI 希望在模型中找出毒性、偏见和语言偏见等问题。因此，红队测试了谎言、语言操纵和危险的科学常识。他们还研究了 GPT-4 在协助和教唆剽窃、金融犯罪和网络攻击等非法活动方面的潜力，以及它如何危害国家安全和战场通信。

这支团队兼顾了各个领域的白领专业人士，包含学者、教师、律师、风险分析师和安全研究人员，主要工作地点在美国和欧洲。

他们的发现被反馈给了 OpenAI，后者在更广泛地发布 GPT-4 之前用这些发现来降低它的危险性，并“重新训练”。在几个月的时间里，专家们每人花了 10 小时到 40 个小时来测试这个模型。多位受访者表示，大部分人的时薪约为 100 美元（备注：当前约 687 元人民币）。

红队成员对于语言模型的快速发展，特别是通过插件将它们连接到外部知识来源的风险，都表示了担忧。“现在，该系统被冻结了，这意味着它不再学习，也不再有记忆，”GPT-4 红队成员、瓦伦西亚 AI 研究所教授乔斯・赫楠蒂兹・奥拉罗 José Hernández-Orallo) 表示，“但如果我们让它连接到互联网呢？它可能成为一个与世界相连的非常强大的系统。”

OpenAI 表示，该公司非常重视安全性，在发布前对插件进行了测试。随着越来越多的人使用 GPT-4，该公司将定期更新它。

技术和人权研究员罗亚・帕克扎德 Roya Pakzad) 使用英语和波斯语提示来测试该模型的性别反应、种族偏好和偏见，特别是在头巾方面。帕克扎德承认，这种工具对非英语母语者有好处，但他发现，即使在后来的版本中，该模型也显示出对边缘化社区的明显刻板印象。

她还发现，在用波斯语测试模型时，所谓的 AI“幻觉”会更严重。“幻觉”指的是聊天机器人用编造的信息进行回应。与英语相比，GPT-4 在波斯语中虚构的名字、数字和事件的比例更高。“我担心语言多样性和语言背后的文化可能会减少。”她表示。

内罗毕律师博鲁・戈鲁 Boru Gollu) 是红队中的唯一非洲测试者，他也注意到模型带有歧视性的语气。“在我测试这个模型的时候，它就像一个白人在跟我说话，”戈鲁表示，“如果你问一个特定的群体，它会给你一个带有偏见的观点或非常有偏见的回答。”OpenAI 也承认，GPT-4 仍然存在偏见。

红队成员从国家安全角度评估模型，对新模型的安全性有不同的看法。外交关系委员会研究员劳伦・卡恩 Lauren Kahn) 表示，当她开始研究该技术可能如何被用于对军事系统发动网络攻击时，她“没想到它会如此详细地描述过程，以至于我只需微调”。

不过，卡恩和其他安全测试人员发现，随着测试的推进，模型的反应变得非常安全了。OpenAI 表示，在 GPT-4 推出之前，该公司对其进行了拒绝恶意网络安全请求的训练。

红队的许多成员表示，OpenAI 在发布前已经做了严格的安全评估。卡内基梅隆大学语言模型毒性研究专家马丁・萨普 Maarten Sap) 表示：“他们在消除这些系统中明显的毒性方面做得相当不错。”

萨普检查了该模型对不同性别的描述，发现这些偏见反映了社会差异。然而，萨普也发现，OpenAI 做出了一些积极的带有政治色彩的选择来对抗这种情况。

然而，自 GPT-4 推出以来，OpenAI 面临广泛批评，包括一个技术道德组织向美国联邦贸易委员会投诉称，GPT-4“有偏见、具有欺骗性，对隐私和公共安全构成威胁”。

插件风险

最近，OpenAI 推出了一项名为 ChatGPT 插件的功能。借助该功能，Expedia、OpenTable 和 Instacart 等合作伙伴的应用可以让 ChatGPT 访问他们的服务，允许它代表人类用户预订和订购商品。

红队的人工智能安全专家丹・亨德里克斯 Dan Hendrycks) 表示，插件会让“圈外人”面临风险。“如果聊天机器人可以把你的私人信息发布到网上，进入你的银行账户，或者派警察到你家里去，到时会怎样?”他表示，“总的来说，在我们让人工智能发挥互联网的力量之前，我们需要更强有力的安全评估。”

受访者还警告说，OpenAI 不能仅仅因为其软件已经上线就停止安全测试。在乔治城大学安全和新兴技术中心工作的希瑟・弗雷斯 Heather Frase) 对 GPT-4 协助犯罪的能力进行了测试。她说，随着越来越多的人使用这项技术，风险将继续增加。

“你之所以做操作测试，就是因为一旦它们在真实环境中实际使用，它们的表现就不同了。”弗雷斯表示。她认为，应该创建一个公共账本，以报告由大型语言模型引起的事件，类似于网络安全或消费者欺诈报告系统。

劳动经济学家兼研究员莎拉・金斯利 Sara Kingsley) 建议，最好的解决办法是像“营养成分标签”那样，清楚地宣传其危害和风险。“要有一个框架，知道经常出现的问题是什么，这样你就有了一个安全阀，”她说，“这就是为什么我说工作永远做不完的原因。”

为降低 ChatGPT 危险性，OpenAI 建立一支“红队”

神经毒剂

红队演练

插件风险

Published by

风君子

发表回复取消回复

神经毒剂

红队演练

插件风险

Published by

风君子

发表回复 取消回复

发表回复取消回复