近日,上海交通大學(xué)長聘教授、通用人工智能研究所所長趙海收到兩個好消息:一是他帶領(lǐng)團隊研發(fā)的“腦啟發(fā)大語言模型”入選了“交大2030”計劃B類,獲得500萬元經(jīng)費支持;二是他的研究方向列入了上海市科委“類腦智能”項目申報指南,這份指南設(shè)立“顛覆性技術(shù)研究”專題,支持科學(xué)家探索腦啟發(fā)類腦智能的新原理和新方法,研究新型非Transformer架構(gòu)的類腦大模型通用架構(gòu)。
Transformer是谷歌在2017年提出的一種深度學(xué)習(xí)架構(gòu),此后經(jīng)OpenAI持續(xù)開發(fā),徹底改變了自然語言處理、計算機視覺等領(lǐng)域的技術(shù)格局,成為人工智能大模型普遍采用的架構(gòu)。那么,上海為何要布局顛覆這種架構(gòu)的科技項目?類腦大模型的研發(fā)進展如何?記者在采訪中了解到值得關(guān)注的階段性成果。
從腦科學(xué)成果中獲得靈感
ChatGPT風(fēng)靡全球后不久,就有一些人工智能知名專家質(zhì)疑Transformer架構(gòu)的發(fā)展?jié)摿Α1热纾瑘D靈獎得主楊立昆認為,這種架構(gòu)面臨計算成本高、缺乏對復(fù)雜世界的理解、決策過程“黑箱化”等瓶頸,未來無法實現(xiàn)科學(xué)家夢寐以求的通用人工智能——智能體具有高效的學(xué)習(xí)和泛化能力,能根據(jù)所處的復(fù)雜環(huán)境自主提出并完成任務(wù),且符合人類倫理規(guī)范。
今年1月,諾貝爾化學(xué)獎得主哈薩比斯談及通用人工智能時說:“也許我們還需要1—2個類似Transformer的突破。”這意味著,Transformer很可能不是大模型架構(gòu)的最終方案,在探索通用人工智能的道路上,還需要有大的創(chuàng)新突破。
Transformer很可能不是實現(xiàn)通用人工智能(AGI)的最終方案。
模擬人腦,是創(chuàng)新大模型架構(gòu)的一條路徑,因為作為大自然進化的產(chǎn)物,人腦就是一種通用人工智能體。“2016年,加州大學(xué)伯克利分校團隊在《自然》雜志發(fā)表了一篇論文,他們發(fā)現(xiàn),大腦皮層的不同區(qū)域可編碼特定的語義內(nèi)容。”趙海向記者介紹了這項腦科學(xué)成果。大模型架構(gòu)可否模擬大腦的語義編碼機制?2023年9月,這位交大教授有了創(chuàng)新靈感,打算顛覆Transformer架構(gòu),研發(fā)一種“腦啟發(fā)大語言模型”。
于是,他自籌科研經(jīng)費,租借GPU服務(wù)器,帶領(lǐng)團隊走進了類腦智能領(lǐng)域的“無人區(qū)”。當(dāng)時,用于訓(xùn)練大模型的GPU服務(wù)器處于價格高位,趙海團隊每月要花18萬元租金。至于研發(fā)能否成功,完全是個未知數(shù)。面對雙重壓力,他選擇了堅持,因為他相信:通用人工智能的真正基石隱藏在人類大腦中。
新范式模擬人腦全局機制
今年3月,150億參數(shù)的“腦啟發(fā)大語言模型”(BriLLM)問世,交大團隊開源發(fā)布了這個中文大模型的代碼和模型權(quán)重。5月,他們發(fā)布了“腦啟發(fā)大語言模型”中文、英文壓縮版,其大小分別為20億和10億參數(shù),但性能與150億參數(shù)大模型相當(dāng)。測試顯示,這3個非Transformer架構(gòu)類腦大模型的生成能力達到GPT-1水平,引起了華為公司Fellow蔡華等專家的關(guān)注。
“BriLLM是首個在宏觀尺度上模擬人腦全局機制的大語言模型,對機器學(xué)習(xí)范式做了顛覆性創(chuàng)新。”趙海介紹,它采用“信號全連接流動”機制,以取代Transformer架構(gòu)的自注意力機制。這種新的機器學(xué)習(xí)范式模擬大腦皮層編碼特定語義的方式,將詞元(token)直接映射為“有向全連接圖”模型架構(gòu)上的一個個節(jié)點,讓每個節(jié)點對應(yīng)一個語義單元。它還模擬腦電波的傳播方式,讓信號沿著“最小阻力”路徑,在“有向全連接圖”上不斷傳播,選擇性地激活一些語義單元節(jié)點,使大模型生成準確的文字內(nèi)容。
“信號全連接流動”機制示意圖
與Transformer架構(gòu)大模型相比,“腦啟發(fā)大語言模型”有四大潛在優(yōu)勢:通過模擬人腦的語義編碼和信號傳播機制,獲得人腦的低能耗優(yōu)勢,大模型計算成本有望大幅降低;每個節(jié)點都對應(yīng)明確語義,決策過程透明可解釋,消除了大模型決策的“黑箱”問題,有利于確保人工智能安全可控;由于信號可在各個節(jié)點間無限制傳播,它有望支持無限長的上下文輸入,且無須增加模型規(guī)模;與多模態(tài)天然適配,在學(xué)習(xí)圖像和視頻時更接近人類學(xué)習(xí)方式,不依賴大數(shù)據(jù)。
憑借這些優(yōu)勢,趙海團隊經(jīng)過4輪評審,獲得了“交大2030”計劃B類立項支持。B類項目倡導(dǎo)“從 0 到 1”的原始創(chuàng)新,瞄準世界級基礎(chǔ)科學(xué)問題。它不設(shè)論文指標,允許項目團隊在科研領(lǐng)域自由使用經(jīng)費。“我們打算把500萬元主要用于購買算力,未來兩年開發(fā)出像ChatGPT那樣的對話式大模型,與Transformer架構(gòu)大模型展開競爭。”得到項目支持后,趙海對這一顛覆性創(chuàng)新的前景更有信心了。
瞄準百億參數(shù)大模型目標
在類腦大模型這一前沿領(lǐng)域,趙海并不是獨行者。記者從中國科學(xué)院腦智卓越中心了解到,腦認知與類腦智能全國重點實驗室研究員李國齊在研發(fā)“類腦通用智能大模型”。他的技術(shù)路線與趙海不同,主要在微觀尺度上模擬大腦神經(jīng)元的激活方式。
李國齊認為,Transformer架構(gòu)大模型的基礎(chǔ)是“點神經(jīng)元模型+自注意力機制”,而人腦的基本計算單位是樹突神經(jīng)元模型。它比點神經(jīng)元模型復(fù)雜得多,呈樹狀結(jié)構(gòu),包含多個分支和房室,每個分支和房室都存在不同參數(shù)的動力學(xué)過程,使樹突神經(jīng)元模型擁有多尺度的記憶能力。“我們的目標是研究可否將這種人腦機制融入現(xiàn)有大模型,構(gòu)建一個通用的類腦智能大模型架構(gòu)。”
為此,他帶領(lǐng)團隊開展了一系列探索:在理論層面,發(fā)表了關(guān)于脈沖神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法的多篇論文,將脈沖神經(jīng)網(wǎng)絡(luò)從過去的5—10層拓展到50—500層;在神經(jīng)元模型層面,提出了多房室、多分支的并行脈沖神經(jīng)元模型,在解決長序列建模問題上取得進展;在架構(gòu)層面,提出了“樹突脈沖神經(jīng)網(wǎng)絡(luò)”這個概念,將源自人腦的神經(jīng)元模型納入機器學(xué)習(xí)框架。
談及未來研發(fā)計劃,李國齊說:“我們希望通過跨學(xué)科合作,推動算法、訓(xùn)練平臺和芯片的深度整合,構(gòu)建百億至千億參數(shù)規(guī)模的通用類腦大模型。”
趙海也打算開發(fā)百億參數(shù)規(guī)模的類腦大模型。未來兩年,他將帶領(lǐng)團隊完成中文和英文預(yù)訓(xùn)練、指令微調(diào)能力構(gòu)建、高效推理部署三項任務(wù),開發(fā)出規(guī)模不低于300億參數(shù)的中文和英文“腦啟發(fā)大語言模型”,讓用戶體驗到非Transformer架構(gòu)大模型的優(yōu)勢。
“我們團隊已走通‘從0到1’的原始創(chuàng)新,接下來要做的是‘從1到10’的升級突破。希望得到政府部門更多的算力支持,讓我們加快迭代類腦大模型。”趙海說。
原標題:《上海布局“類腦大模型”顛覆性創(chuàng)新項目,交大教授挑戰(zhàn)大模型主流架構(gòu)》
欄目主編:黃海華
來源:作者:解放日報 俞陶然