記者今天(9日)從中國科學院自動化研究所獲悉,該研究所神經計算與腦機交互課題組與中國科學院腦科學與智能技術卓越創(chuàng)新中心聯(lián)合團隊結合行為實驗與神經影像分析,首次證實多模態(tài)大語言模型(MLLMs)能夠自發(fā)形成與人類高度相似的物體概念表征系統(tǒng)。這項研究不僅為人工智能認知科學開辟了新路徑,更為構建類人認知結構的人工智能系統(tǒng)提供了理論框架。相關研究成果北京時間6月9日在國際學術期刊《自然· 機器智能》(Nature Machine Intelligence)發(fā)表。
人類能夠對自然界中的物體進行概念化,這一認知能力長期以來被視為人類智能的核心。當我們看到狗、汽車或蘋果時,不僅能識別它們的物理特征(尺寸、顏色、形狀等),還能理解其功能、情感價值和文化意義,這種多維度的概念表征構成了人類認知的基石。隨著ChatGPT等大語言模型(LLMs)的發(fā)展,一個根本性問題浮出水面:這些大模型能否從語言和多模態(tài)數據中發(fā)展出類似人類的物體概念表征?
傳統(tǒng)人工智能研究聚焦于物體識別準確率,卻很少探討模型是否真正“理解”物體含義。該科研團隊從認知神經科學經典理論出發(fā),設計了一套融合計算建模、行為實驗與腦科學的創(chuàng)新范式。研究采用認知心理學經典的“三選一異類識別任務”,要求大模型與人類從物體概念三元組(來自1854種日常概念的任意組合)中選出最不相似的選項。通過分析470萬次行為判斷數據,團隊首次構建了AI大模型的“概念地圖”。
研究人員從海量大模型行為數據中提取出66個“心智維度”,并為這些維度賦予了語義標簽。研究發(fā)現,這些維度是高度可解釋的,且與大腦類別選擇區(qū)域的神經活動模式顯著相關。
研究還對比了多個模型在行為選擇模式上與人類的一致性。結果顯示,多模態(tài)大模型在一致性方面表現更優(yōu)。此外,研究還揭示了人類在做決策時更傾向于結合視覺特征和語義信息進行判斷,而大模型則傾向于依賴語義標簽和抽象概念。本研究表明大語言模型內部存在著類似人類對現實世界概念的理解。
(總臺央視記者 帥俊全 褚爾嘉)