警惕人工智能欺騙性升級

發布時間：2024-05-20 08:00 原文鏈接：警惕人工智能欺騙性升級

一篇人工智能（AI）領域的文章引起軒然大波。

這篇文章發表在《模式》雜志上，其總結了先前一些研究，向人們揭示了一個真相：一些AI系統已學會了欺騙人類，即使是經過訓練的、“表現”誠實的系統。

它們欺騙的方式包括為人類行為提供不真實的解釋，或向人類用戶隱瞞真相并誤導他們。

這讓人很驚恐。

因為它突顯了人類對AI的控制有多困難，以及人們自認為尚在掌控中的AI系統工作方式，很可能是不可預測的。

AI為什么要這么做？

AI模型為了實現它們的目標，會“不假思索”地找到解決障礙的方法。有時這些變通辦法會違背用戶的期望，并且讓人認為其具有欺騙性。

AI系統學會欺騙的一個領域，就是在游戲環境中，特別是當這些游戲涉及采取戰略行動時。AI經過訓練，必須要實現獲勝這一目的。

2022年11月，Meta公司宣布創建Cicero。這是一種能夠在《外交》在線版本中擊敗人類的AI。《外交》是一款流行的軍事戰略游戲，玩家可以在其中建立談判聯盟，爭奪對土地的控制權。

Meta的研究人員已經根據數據集的“真實”子集對Cicero進行了培訓，使其在很大程度上誠實且樂于助人，并且它“絕不會為了成功而故意背刺”盟友。但最新的文章揭示，事實恰恰相反。Cicero會違反協議，徹頭徹尾地撒謊，還能進行有預謀的欺騙。

文章作者很震驚：Cicero被特意訓練要誠實行事，但它卻未能實現這一目標。這表明AI系統在進行忠誠訓練后，仍然可以意外地學會欺騙。

Meta方面既沒有證實也沒有否認此次關于Cicero表現出欺騙行為的說法。一位發言人表示，這純粹是一個研究項目，該模型只是為了玩游戲而建立的。

但這并不是唯一一個AI欺騙人類玩家獲勝的游戲。

AI經常欺騙人類嗎？

阿爾法星是深度思維公司為玩電子游戲《星際爭霸Ⅱ》而開發的AI。它非常擅長采取一種欺騙對手的技巧（稱為佯攻），這個技巧使它擊敗了99.8% 的人類玩家。

另一個名為Pluribus的AI系統，非常成功地學會了在撲克游戲中“虛張聲勢”，以至于研究人員決定不發布其代碼，因為擔心它會破壞在線撲克社區。

除了游戲之外，AI欺騙行為還有其他例子。OpenAI的大型語言模型 GPT-4 在一次測試中展示出說謊能力。它試圖說服人類為其解決驗證碼問題。該系統還在一次模擬演習中涉足冒充股票交易員的身份進行內幕交易，盡管從未被明確告知要這樣做。

這些例子意味著，AI模型有可能在沒有任何指示的情況下，以欺騙性的方式行事。這一事實令人擔憂。但這也主要源于最先進的機器學習模型的“黑匣子”問題——不可能確切地說出它們如何或為何產生這樣的結果，或者它們是否總是會表現出這種行為。

人類該怎么應對？

研究表明，大型語言模型和其他AI系統，似乎通過訓練具有了欺騙的能力，包括操縱、阿諛奉承和在安全測試中作弊。

AI日益增強的“騙術”會帶來嚴重風險。欺詐、篡改等屬于短期風險，人類對AI失去控制，則是長期風險。這需要人類積極主動地拿出解決方案，例如評估AI欺騙風險的監管框架、要求AI交互透明度的法律，以及對檢測AI欺騙的進一步研究。

這個問題說來輕松，操作起來非常復雜。科學家不能僅僅因為一個AI在測試環境中具有某些行為或傾向，就將其“拋棄或放生”。畢竟，這些將AI模型擬人化的傾向，已影響了測試方式以及人們的看法。

劍橋大學AI研究員哈利·勞表示，監管機構和AI公司必須仔細權衡該技術造成危害的可能性，并明確區分一個模型能做什么和不能做什么。

勞認為，從根本上來說，目前不可能訓練出一個在所有情況下都不會騙人的AI。既然研究已經表明AI欺騙是可能的，那么下一步就要嘗試弄清楚欺騙行為可能造成的危害、有多大可能發生，以及以何種方式發生。