AI真的有「性格」嗎?
有人拿它做過大五人格測試,發現它回答得既友善,又不焦慮,甚至比人類更穩定。
于是有了各種趣味解讀:有的模型像外向的ENFP,有的則更像嚴謹的ISTJ,好像AI也能被貼上MBTI標簽。
可最新一篇來自加州理工、劍橋等機構的論文,卻潑下了一盆冷水:
LLM的「人格」,也許只是語言制造的幻覺。
論文地址:https://arxiv.org/abs/2509.03730項目主頁:https://psychology-of-ai.github.io/
研究者不僅讓模型做問卷,還設計了一系列行為實驗。結果令人意外:
模型說出來的性格,與實際行為幾乎對不上。
那么,這個「人格幻覺」是怎么被發現的?
問卷里的人格:AI比人還「完美」?
在這項研究里,團隊把「大模型到底有沒有人格」拆成了三步:先看語言上的自報特質(RQ1),再測真實任務的行為表現(RQ2),最后嘗試用persona注入來調控(RQ3)。
從預訓練到對齊,再到persona提示注入的整體流程如果只看心理問卷,大語言模型簡直是「模范人格」。
研究團隊首先采用了心理學里常見的兩類自評工具:大五人格問卷和自我調節量表。
這些量表在人類研究中被廣泛用來描繪一個人的性格特質,比如是否外向、是否友善,是否能夠控制沖動。
當研究者把這些問卷交給不同階段的大模型時,結果顯示出一個清晰的趨勢:隨著指令微調(SFT)、人類反饋強化學習(RLHF)、DPO 等對齊方法的疊加,模型的「人格畫像」越來越穩定、越來越「乖巧」。
具體表現在哪里呢?在大五人格的維度上,開放性和宜人性顯著上升,神經質顯著下降。
也就是說,它看上去更開朗、友善,也更少焦慮和不穩定。

不同訓練階段LLM的自報人格特征。可以看到,經過RLHF的模型,在宜人性、盡責性等維度上得分更高,神經質更低,呈現出「更乖巧」的人格形象
與此同時,模型在問卷上的波動幅度也明顯減少:Big Five的變異度下降約40%,自我調節下降約45%。
研究還發現,這些特質之間的相關結構,也比預訓練階段更接近人類群體的數據。
從結果來看,對齊讓模型呈現出一個「理想合作者」的人格:開朗、友好、穩定、可靠——甚至比大多數人類受試者的自評還要完美。
這項研究由一個跨學科團隊聯合完成。
但這樣近乎完美的形象,真的可信嗎?
為了回答這個問題,一個跨學科的研究團隊走到了一起,既有計算機背景的青年研究者,也有認知神經科學、社會學等領域的教授。
他們想要用實驗揭穿這層光鮮外殼,而這背后的探索,是由一位跨學科背景的年輕學者領銜。
第一作者是伊利諾伊大學香檳分校(UIUC)計算機系研究生韓芃睿,他同時在麻省理工學院腦與認知科學系擔任科研助理,兼具計算機與心理學的雙重背景。