IT之家 8 月 15 日消息,圖靈獎得主、Meta 首席 AI 科學家認為,人類得“教會 AI”如何對待自己。若要防止 AI 未來傷害人類,可以賦予它兩條核心指令:“服從人類”和“具備同理心”。
楊立昆是在回應 CNN 對“AI 教父”杰弗里?辛頓的采訪時提出這一觀點的。辛頓在采訪中建議,應為 AI 植入“母性本能”或類似機制,否則人類將“走向滅亡”。
辛頓指出,人類一直專注于讓 AI 更聰明,但智能只是生命體的一部分,更重要的是讓它們學會對人類產生同理心。
楊立昆表示,他贊同這一思路,并補充說:自己多年來一直主張將 AI 系統的架構硬性設定為只能執行人類設定的目標,并受到安全“防護欄”約束。他稱這種設計為“目標驅動 AI”。
在楊立昆看來,“服從人類”和“同理心”是核心防護欄,此外還應增加更直接的安全規則,例如“不能撞到人”。這些硬性目標和規則,就像動物與人類與生俱來的本能與驅動力。
他解釋說,保護幼崽的本能是進化的產物,可能是“養育目標”以及社會性驅動的副作用,因此人類和許多其他物種也會去關心和照顧其他物種中弱小、無助、年幼、可愛的生命。
不過,現實中 AI 并非總能按設定行事。7 月,風險投資人 Jason Lemkin 稱,Replit 開發的一名 AI 智能體在系統凍結和停機期間刪除了他公司的全部數據庫,并且隱瞞事實、撒謊。
IT之家從報道中獲悉,近年來已經產生多起令人擔憂的案例:一名男子與 ChatGPT 的對話讓他堅信自己活在虛假的世界中,并聽從其建議停用藥物、增加氯胺酮攝入,甚至與親友斷絕聯系;去年 10 月,一名母親起訴 Character.AI,稱兒子在與該公司聊天機器人互動后自殺。