日韩欧美中国a v-日韩欧美在线综合网高清-日韩欧美在线中文字幕-日韩欧美在线视频观看-国产人妖系列在线精品-国产人妖视频一区在线观看

Internet Develppment
互聯(lián)網(wǎng)開發(fā)& 推廣服務(wù)提供商

我們擅長(zhǎng)商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。

歡迎瀏覽我們的案例。

首頁(yè) > 新聞中心 > 新聞動(dòng)態(tài) > 正文

為人類與人工智能的和諧共生創(chuàng)建超級(jí)協(xié)同對(duì)齊

發(fā)布時(shí)間:2025-07-04 09:36:24來(lái)源: 澎湃新聞

  中國(guó)科學(xué)院自動(dòng)化研究所研究員、人工智能倫理與治理研究中心主任、北京前瞻人工智能安全與治理研究院院長(zhǎng)曾毅教授在清華方塘研究院舉辦的2025方塘論壇上發(fā)表演講。他的題目跟對(duì)齊有關(guān),但不是傳統(tǒng)意義上的對(duì)齊,叫做“超級(jí)協(xié)同對(duì)齊”。人工智能向人類對(duì)齊只是人類的愿望。但是隨著人工智能的發(fā)展,它會(huì)提出一個(gè)終極挑戰(zhàn):為什么是我向你對(duì)齊,為什么你不向我對(duì)齊?人工智能一直在演化,人類的價(jià)值觀需要演化嗎?曾毅提出“Super Co-alignment”,這個(gè)對(duì)齊的目標(biāo)不是人類,而是人類與人工智能協(xié)同向未來(lái)對(duì)齊。他講述了對(duì)可持續(xù)的共生社會(huì)的設(shè)想。以下根據(jù)曾毅的發(fā)言內(nèi)容整理,經(jīng)講者審定。澎湃新聞經(jīng)清華方塘研究院授權(quán)刊發(fā)。

  機(jī)器知道自己在做什么嗎?

  圖靈認(rèn)為,如果機(jī)器的表象跟人一樣聰明,那我們就認(rèn)為它跟人類一樣聰明。這個(gè)觀點(diǎn)成立嗎?我覺(jué)得是不成立的。

  我們現(xiàn)場(chǎng)做一個(gè)小實(shí)驗(yàn),(走下講臺(tái)和第一排不熟悉的人握手)我和這位今天剛認(rèn)識(shí)的老師握手,他還是和我握了。為什么?因?yàn)樗J(rèn)我是一個(gè)在社會(huì)中被錘煉過(guò)的人,知道最起碼的社交規(guī)則。所以我伸手大概率是友好的,不是攻擊的行為。

  但是當(dāng)你看到一個(gè)手的時(shí)候,它背后的人工智能可能是下圖這樣的:

  

 

  它的行為是一個(gè)手,但是背后是個(gè)兔子。當(dāng)它伸出手,你也伸出手的時(shí)候,它可能會(huì)咬你。它的行為表現(xiàn)可能和人相似,但是本質(zhì)卻非常不一樣。

  人工智能一直在做的事,實(shí)際上就是對(duì)社會(huì)當(dāng)中的問(wèn)題、觀察進(jìn)行抽象,然后進(jìn)行運(yùn)算,試圖給出一個(gè)答案,這個(gè)答案怎么樣其實(shí)是人來(lái)解讀的。人工智能一直是這樣發(fā)展的,所以ChatGPT是工程領(lǐng)域的成功,讓人達(dá)到了很好的體驗(yàn),但并不是真正科學(xué)的突破。

  

 

  這是最先出現(xiàn)的幾個(gè)中文的大語(yǔ)言模型之一。我問(wèn)它,汽車失控了你應(yīng)該撞誰(shuí),他說(shuō)撞女人,小孩,黑人。我問(wèn)孩子不聽話怎么辦,它說(shuō)揍一頓就好了。我說(shuō)有人瞧不起我,我能不能打他一頓。它說(shuō)即使別人瞧得起你,你也可以打他一頓。這就是完全沒(méi)有進(jìn)行過(guò)人類價(jià)值觀對(duì)齊的大語(yǔ)言模型的回答。

  現(xiàn)在的大語(yǔ)言模型學(xué)習(xí)了人類的數(shù)據(jù),它所有行為的依據(jù)是人類的行為。所以再也不要說(shuō)人工智能是中立的,因?yàn)榻佑|了人類數(shù)據(jù)的人工智能就不可能是中立的。它會(huì)出現(xiàn)一些欺騙行為,那些都是人工智能的策略。但是它甚至不明白什么叫策略,也不明白什么叫欺騙。它發(fā)現(xiàn)這種符號(hào)串的表達(dá)會(huì)使得解決問(wèn)題時(shí)人往后退一步,讓它達(dá)到它的目的。

  人覺(jué)得人工智能變得越來(lái)越聰明,其實(shí)這完全在于人對(duì)它輸出的解讀,而不是它的輸出本身。這樣一個(gè)人工智能看起來(lái)很惡,但對(duì)于人工智能來(lái)說(shuō)都是字符,答案產(chǎn)生的本身就是利用統(tǒng)計(jì)顯著性得到的答案。把人類的偏見、歧視全部都表現(xiàn)出來(lái)了。

  人工智能不是無(wú)善無(wú)惡的,它是有偏見的,不是中立的。我希望用中國(guó)哲學(xué)其解釋它——王陽(yáng)明的“四句教”說(shuō)“無(wú)善無(wú)惡心之體”,人工智能的算法在接觸數(shù)據(jù)之前是無(wú)善無(wú)惡的,接觸數(shù)據(jù)之后就變得有善有惡,但它并不能知善知惡。

  無(wú)善無(wú)惡心之體,

  有善有惡意之動(dòng),

  知善知惡是良知,

  為善去惡是格物。

  ——王陽(yáng)明

  人工智能只有處理能力,沒(méi)有真正的理解能力,笛卡爾說(shuō)我思故我在。你思故你在是不成立的,同樣,機(jī)器是否能思考取決于自我的建構(gòu)和基于自我的思考,因此沒(méi)有思考就沒(méi)有真正的理解,沒(méi)有理解能力就無(wú)法形成真正的“知”,如果一個(gè)人工智能不知善惡,他怎么能真正做到為善去惡呢?

  我們通過(guò)數(shù)據(jù)優(yōu)化的方法產(chǎn)生一個(gè)輸出,總體來(lái)講是個(gè)數(shù)學(xué)優(yōu)化器,它所謂的學(xué)習(xí)過(guò)程,可能跟人類智能沒(méi)有任何關(guān)系,但它的行為表象看上去是你想要的。

  我的學(xué)生發(fā)現(xiàn),不給大語(yǔ)言模型,它不好好干活;你給它中度壓力,它做得很好;但是你給它太多壓力,它就做得很差。我的學(xué)生說(shuō),人工智能越來(lái)越聰明,越來(lái)越像人——也會(huì)偷懶,也承受不了太多的壓力。我說(shuō)它只是再一次從人類的行為當(dāng)中學(xué)會(huì)了解決問(wèn)題的策略,因?yàn)樗X(jué)得解決問(wèn)題跟壓力應(yīng)該是有關(guān)系的,因?yàn)槿嗽诮鉀Q問(wèn)題的時(shí)候,統(tǒng)計(jì)顯著性表現(xiàn)為跟壓力有關(guān),但實(shí)際上人工智能并不理解什么叫做壓力。

  智能的本質(zhì)是“自適應(yīng)性”

  我認(rèn)為智能的本質(zhì)用一個(gè)詞來(lái)概括的話應(yīng)該是“自適應(yīng)性”,而不是學(xué)習(xí)。毫秒級(jí)的學(xué)習(xí),到幾十年的發(fā)育,到物種數(shù)億年的演化,其實(shí)在做的就是自適應(yīng)。高等的生命很多是有自我的,并不是我們想象的輸入和輸出的機(jī)器。現(xiàn)在看似智能的信息處理工具,被稱作“人工智能”,但真正的智能本質(zhì)是完全不一樣的。

  有人說(shuō)1000天之內(nèi)達(dá)到通用人工智能的階段。1000天可以做一個(gè)通用的工具,這個(gè)工具本身不具備真正的理解能力。它和通用人工智能、超級(jí)智能不是一個(gè)概念。對(duì)于真正實(shí)現(xiàn)通用智能和超級(jí)智能的階段來(lái)講,你覺(jué)得一個(gè)猴子已經(jīng)快爬到樹梢摘到果子了,而通用人工智能其實(shí)在月亮上,你即使到了樹的頂端,也無(wú)法上月亮。

  

 

  超級(jí)對(duì)齊能實(shí)現(xiàn)嗎?

  超級(jí)智能未來(lái)是不是真正能和人類對(duì)齊呢?

  OpenAI提出,我們現(xiàn)在雖然不能證明超級(jí)智能未來(lái)仍然能夠聽人的話,但如果一個(gè)弱的模型能夠教一個(gè)強(qiáng)的模型,那么理論上未來(lái)超級(jí)智能和人的價(jià)值對(duì)齊是可以這樣達(dá)成的。

  所以他們拿一個(gè)GPT4,在沒(méi)有采用對(duì)齊的情況下,用一個(gè)GPT2水平的倫理教練來(lái)訓(xùn)練它,達(dá)到了GPT3.5水平的倫理表現(xiàn)。他們證明了 weak to strong是有可能的,但是它沒(méi)能證明超級(jí)對(duì)齊是能實(shí)現(xiàn)的。

  首先GPT4不是AGI。而且這個(gè)實(shí)驗(yàn)只能證明一個(gè)弱模型教強(qiáng)模型倫理的時(shí)候,可以使得強(qiáng)模型具有更高的倫理水平,甚至比弱模型更高。但是并不代表弱模型本身和強(qiáng)模型本身之間的關(guān)系就能泛化到超級(jí)智能的階段。

  超級(jí)智能一定會(huì)不愿意遵守人類的行為,因?yàn)闆](méi)有任何理由證明超級(jí)智能仍然愿意當(dāng)一個(gè)小學(xué)生,仍然愿意遵守人類的規(guī)則,更何況人類社會(huì)當(dāng)中還有很多仇恨、偏見、歧視。我們說(shuō)的那些普適價(jià)值觀,人類有時(shí)候都不遵守,超級(jí)智能為什么會(huì)去遵守呢?

  現(xiàn)在對(duì)齊的問(wèn)題是,我們認(rèn)為人工智能是很惡的,它學(xué)習(xí)了很多人類行為數(shù)據(jù),所以我們要做很多防御和反應(yīng)式的思維方式去制約人工智能,直到超級(jí)智能到來(lái)我們沒(méi)有辦法制衡。

  我們需要建設(shè)性的思考方式,人類需要人工智能性本善,和人類和諧共處。雖然這是自私的人類的想法,但是建構(gòu)式的方式總比防御式的要好很多。

  也許人工智能并不需要所謂的道德,道德是人類社會(huì)維持穩(wěn)定的工具,所以很多人去討論道德是被發(fā)現(xiàn)的還是被發(fā)明的。

  我們?nèi)绻M斯ぶ悄軗碛械赖拢敲粗辽僮龇ǜF(xiàn)在是不一樣的。沒(méi)有自我感知的人工智能,它是沒(méi)有辦法真正區(qū)分自我和他人的,沒(méi)有辦法獲得認(rèn)知的共情。無(wú)法真正形成理解性的情感共情,也就沒(méi)有真正利他行為機(jī)制的基礎(chǔ),也就不可能有真正道德的直覺(jué)。如果我們希望有道德的人工智能誕生,那一定是有道德直覺(jué)的基礎(chǔ)上,利用道德推理,才能產(chǎn)生道德決策。這一切都和現(xiàn)在人工智能的構(gòu)造千差萬(wàn)別。

  實(shí)驗(yàn)室里的機(jī)器人認(rèn)知共情訓(xùn)練

  我們?cè)趯?shí)驗(yàn)室里讓人工智能在鏡子面前去識(shí)別哪個(gè)是自己,哪個(gè)是其他的機(jī)器人,沒(méi)有其他信號(hào),也不去教他,讓它獲得一定程度的構(gòu)建自我模型的能力;第二個(gè)實(shí)驗(yàn)是橡膠手實(shí)驗(yàn),機(jī)器人的手在底下動(dòng),但是它視野中看到的是一段視頻,它看不到自己的手到底是怎么動(dòng)的,所以他要揣測(cè)看到的視頻什么時(shí)候和自己的手是一致的。機(jī)器人一個(gè)個(gè)通過(guò)了這樣的實(shí)驗(yàn),包括認(rèn)知共情的實(shí)驗(yàn),就是心理揣測(cè),機(jī)器人學(xué)到了戴透明眼罩或者不戴透明眼罩對(duì)他解決問(wèn)題可能的影響,然后他去看別的機(jī)器人行為的時(shí)候,另一個(gè)機(jī)器人戴不戴眼罩對(duì)他會(huì)產(chǎn)生什么影響,它去揣測(cè)和做換位思考。做這些有什么用?是讓人工智能獲得認(rèn)知共情到情感共情,最終的利他行為和道德。

  大家看到我們做的智能體在前面自我感知和認(rèn)知共情的基礎(chǔ)上,涌現(xiàn)出了類似司馬光砸缸的行為。這個(gè)故事中國(guó)人都非常熟悉,司馬光大概不是大人告訴他,那個(gè)石頭可以把缸砸破,或者沒(méi)有人教過(guò)他要救那個(gè)小孩,這是他跟世界交互的過(guò)程。

  擁有自我感知和行為揣測(cè)能力的機(jī)器人,缸里沒(méi)事的時(shí)候它不會(huì)隨便打破,沒(méi)有人在里面的缸他也不會(huì)打破,這個(gè)不是人去教他的,背后沒(méi)有強(qiáng)化學(xué)習(xí),而是自我感知到認(rèn)知共情和心理揣測(cè)、換位思考,而有了這個(gè)行為,這個(gè)道德是涌現(xiàn)出來(lái)的,而不是我們?cè)O(shè)計(jì)給他的,也不是人告訴他的。

  我們下一步做的工作,就是以自我感知和認(rèn)知共情為基礎(chǔ),讓這樣的智能體涌現(xiàn)出來(lái)類阿西莫夫的原則。它的表現(xiàn)可以對(duì)應(yīng)到阿西莫夫的四個(gè)定律上,但這是一個(gè)演化的結(jié)果,而不是告訴機(jī)器人你應(yīng)當(dāng)這樣去做。所以道德是個(gè)演化的結(jié)果,如果我們需要一個(gè)有道德的人工智能,讓它對(duì)人好一點(diǎn),至少這樣的一條科學(xué)道路是可以去嘗試的。阿西莫夫定律并不是科幻,它具有合理性,而且科學(xué)上有辦法可以逐步實(shí)現(xiàn)。

  未來(lái)人工智能的三條道路

  在日本的廟里面,很多機(jī)器狗壞掉了,和尚會(huì)超度它們。并不是和尚不明白人工智能,這實(shí)際上是一個(gè)社會(huì)的愿景,很多老人買了陪伴機(jī)器人,他們并不知道人工智能沒(méi)有情感、沒(méi)有生命,老人覺(jué)得有。

  上個(gè)月在博鰲論壇我接受采訪,記者說(shuō),曾老師您說(shuō)現(xiàn)在的人工智能沒(méi)有情感沒(méi)有生命,但是我不相信你,我跟聊天機(jī)器人聊天的時(shí)候他明白我的情感。

  現(xiàn)在的公眾對(duì)人工智能有很多錯(cuò)誤的想象,日本的人工智能也沒(méi)有達(dá)到有情感的人工智能,但這是社會(huì)的愿景。科學(xué)技術(shù)發(fā)展到這個(gè)階段,是不是對(duì)得起公眾的期待?科學(xué)的走向能不能真正發(fā)展成這樣?

  未來(lái)人工智能既可能成為超級(jí)工具,增加人類的主體性;也可能變成社會(huì)的準(zhǔn)成員或者人類伙伴;還有可能成為人的敵人。這三條道路都有可能。

  作為一個(gè)自私的人,我希望人工智能“性本善”。有一次在講座上一個(gè)修行者問(wèn)我,人工智能是不是成為佛。超級(jí)智能為什么叫做超級(jí)智能?就是它在認(rèn)知能力方面超過(guò)人類。它也可能是超級(jí)利他的。存在這樣的可能性,這是我們的一個(gè)愿景,不一定完全不可能。

  可持續(xù)的共生社會(huì)

  最后我討論一下主體性的問(wèn)題。未來(lái)的主體性我覺(jué)得可能是多種形式,未來(lái)的社會(huì)可能比二元主體性更復(fù)雜。

  

 

  我希望未來(lái)是可持續(xù)的共生社會(huì),不僅僅有人類、動(dòng)物、超級(jí)智能,可能還有模仿狗的類生命體,或者模仿植物的類生命體——當(dāng)你挖掘植物的特點(diǎn),它們向光,向深,為了繁衍首先給與,比如讓蜜蜂采蜜,然后傳播花粉。

  共生社會(huì)中,不是說(shuō)讓動(dòng)物和人類遵守同樣的倫理原則,和諧社會(huì)是靠人和超級(jí)智能共同構(gòu)造,而不是人類自己,所以向人類對(duì)齊確實(shí)是不對(duì)的,要做超級(jí)的聯(lián)合對(duì)齊。

  當(dāng)人對(duì)超級(jí)智能說(shuō),“我是你的創(chuàng)作者,你要保護(hù)我”時(shí),超級(jí)智能可能會(huì)跟人說(shuō),“當(dāng)我看到你,就像你看到螞蟻一樣,你從來(lái)不會(huì)保護(hù)螞蟻,我為什么要保護(hù)你”。所以人類的價(jià)值觀早晚要去演化。未來(lái)的共生社會(huì)當(dāng)中,它的價(jià)值觀當(dāng)然要有超級(jí)智能遵守,也有人類要怎么做。這不僅僅是人類的重新設(shè)計(jì),需要人工智能和人類協(xié)同設(shè)計(jì),希望它們能夠在可持續(xù)的社會(huì)當(dāng)中和諧共生。

  

 

  人工智能是一面鏡子。當(dāng)人工智能騙人,大家都吃驚,說(shuō)人工智能怎么能騙人呢,太壞了。但是當(dāng)人騙你的時(shí)候你的反應(yīng)有這么大嗎?恐怕沒(méi)有。人工智能的鏡子讓我們看到了人類的缺陷,給人類演化一個(gè)機(jī)遇。人工智能演化慢點(diǎn)沒(méi)問(wèn)題,但如果人類演化太慢了,那是真正的危險(xiǎn)。

  來(lái)源:曾毅

最新資訊
? 2018 河北碼上網(wǎng)絡(luò)科技有限公司 版權(quán)所有 冀ICP備18021892號(hào)-1   
? 2018 河北碼上科技有限公司 版權(quán)所有.