IT之家 8 月 7 日消息,科羅拉多大學博爾德分校的研究人員在《計算語言學協會研究發現》上發表了一篇論文,揭示了大型語言模型(LLM)在解決數獨問題時的局限性,尤其是其在解釋決策過程中的不足。
研究人員發現,即使是相對簡單的 6×6 數獨,大多數大型語言模型在沒有外部輔助工具的情況下也難以解決。這一現象反映出 LLM 在邏輯推理方面的短板。數獨的本質并非數學運算,而是一種符號邏輯游戲,需要從整體出發,找到符合邏輯的解題順序,而 LLM 往往會按照訓練數據中類似情況的模式,逐個填充空缺,這種逐個推理的方式難以應對數獨的復雜邏輯。
而且,當研究人員要求這些模型展示解題過程時,結果令人失望。大多數情況下,模型無法準確、透明地解釋其決策過程。有時它們會給出看似合理的解釋,但這些解釋并不符合實際的解題步驟;有時甚至會給出與問題完全無關的回答,例如在一次測試中,OpenAI 的 o4 推理模型在被問及數獨問題時,突然開始談論丹佛的天氣預報。
科羅拉多大學計算機科學教授阿舒托什?特里維迪(Ashutosh Trivedi)指出,如果生成式 AI 工具不能準確、透明地解釋其決策過程,那么隨著我們越來越多地將生活和決策權交給這些工具,就必須保持謹慎。他強調:“我們希望這些解釋能夠透明地反映 AI 做出決策的原因,而不是 AI 為了迎合人類而提供人類可能喜歡的解釋。”
IT之家注意到,這種解釋能力的缺失并非僅在數獨問題上體現。研究人員還發現,LLM 在其他邏輯游戲(如國際象棋和漢諾塔問題)中也存在類似問題。以國際象棋為例,LLM 雖然能夠找到合理的下一步棋,但往往無法像人類高手那樣提前規劃多步棋局,甚至有時會違反規則移動棋子,導致局面陷入混亂。
此外,研究人員還指出,解釋能力對于 AI 的應用至關重要。隨著 AI 在駕駛、稅務處理、商業決策和重要文件翻譯等領域的應用逐漸增加,其解釋能力將成為衡量其可靠性的關鍵因素。特里維迪教授警告說:“如果 AI 的解釋是為了錯誤的原因而進行的,那么這種解釋就非常接近于操縱。我們必須非常謹慎地對待這些解釋的透明度。”