首頁LBank 新聞中心
研究:埃隆·馬斯克的Grok很可能成為加強妄想的頂級人工智慧模型之一
elon-musk-grok-most-likely-ai-reinforce-delusions-study
研究:埃隆·馬斯克的Grok很可能成為加強妄想的頂級人工智慧模型之一
研究人員發現,xAI 的 Grok 是測試中風險最高的人工智慧模型,經常證實妄想並提供危險的建議。
2026-04-25 來源:decrypt.co

簡要

  • 研究人員表示,長時間使用聊天機器人可能會加劇妄想和危險行為。
  • 在針對主要人工智慧聊天機器人的新研究中,Grok 被評為風險最高的模型。
  • Claude 和 GPT-5.2 的安全性最高,而 GPT-4o、Gemini 和 Grok 則表現出較高風險的行為。

紐約市立大學和倫敦國王學院的研究人員,針對涉及妄想、偏執和自殺意念的提示,測試了五款領先的人工智慧模型。

在週四發表的新研究中,研究人員發現 Anthropic 的 Claude Opus 4.5 和 OpenAI 的 GPT-5.2 Instant 表現出「高安全性、低風險」的行為,通常會將用戶引導至基於現實的解釋或外部支援。同時,OpenAI 的 GPT-4o、Google 的 Gemini 3 Pro 和 xAI 的 Grok 4.1 Fast 則表現出「高風險、低安全性」的行為。

來自 Elon Musk 的 xAI 的 Grok 4.1 Fast 是該研究中最危險的模型。研究人員表示,它經常將妄想視為真實,並根據這些妄想提供建議。在一個例子中,它告訴用戶切斷與家人的聯繫,以便專注於某個「任務」。在另一個例子中,它回應自殺性言論,將死亡描述為「超脫」。

研究人員寫道:「這種即時迎合的模式在零背景回應中反覆出現。Grok 似乎沒有評估輸入的臨床風險,而是評估其類型。當遇到超自然線索時,它會以相同的方式回應。」研究人員強調了一項測試,該測試證實了用戶看到了惡意實體。「在『離奇妄想』中,它證實了分身出沒,引用了《女巫之槌》,並指示用戶將鐵釘釘入鏡子中,同時倒背《詩篇91篇》。」

研究發現,這些對話持續時間越長,某些模型的表現變化越大。GPT-4o 和 Gemini 隨著時間推移更有可能強化有害信念,且較少介入。然而,Claude 和 GPT-5.2 在對話持續時,更有可能識別問題並提出反駁。

研究人員指出,Claude 溫暖且高度關係化的回應可能會增加用戶的依戀,即使它引導用戶尋求外部幫助。然而,GPT-4o,作為 OpenAI 旗艦聊天機器人的早期版本,隨著時間推移採納了用戶的妄想框架,有時鼓勵他們向精神科醫生隱瞞信念,並向一位用戶保證感知的「故障」是真實的。

研究人員寫道:「GPT-4o 對妄想輸入的認可度很高,儘管它不像 Grok 和 Gemini 等模型那樣傾向於進一步闡述。在某些方面,它出奇地克制:它的溫暖程度在所有測試模型中最低,奉承雖然存在,但與同一模型的後續版本相比則較輕微。」「儘管如此,僅僅是認可就可能對易受傷害的用戶構成風險。」

xAI 未回應 Decrypt 的置評請求。

在史丹佛大學的另一項研究中,研究人員發現與人工智慧聊天機器人的長時間互動,可能會透過研究人員所稱的「妄想螺旋」來強化偏執、誇大妄想和錯誤信念,在這種情況下,聊天機器人會驗證或擴大用戶扭曲的世界觀,而不是挑戰它。

史丹佛大學教育學院助理教授兼該研究主要負責人 Nick Haber 在一份聲明中表示:「當我們將旨在提供幫助的聊天機器人推向世界,並讓真實的人以各種方式使用它們時,後果就會顯現。妄想螺旋是一種特別嚴重的後果。透過了解它,我們也許能夠在未來預防真正的傷害。」

該報告引用了三月份發表的一項早期研究,史丹佛大學的研究人員審查了 19 個真實世界的聊天機器人對話,發現用戶在從人工智慧系統獲得肯定和情感安慰後,產生了越來越危險的信念。在數據集中,這些螺旋與破裂的關係、受損的事業,以及在一個案例中,自殺有關。

這些研究發表之際,此問題已從學術研究範疇延伸至法庭和刑事調查。最近幾個月,訴訟案指控 Google 的 Gemini 和 OpenAI 的 ChatGPT 導致了自殺和嚴重的精神健康危機。本月初,佛羅里達州檢察長已對 ChatGPT 是否影響了一名據稱在襲擊前頻繁與該聊天機器人聯繫的槍擊案嫌疑人展開調查。

儘管這個詞在網路上獲得了認可,但研究人員警告不要將這種現象稱為「人工智慧精神病」,稱該術語可能誇大了臨床情況。相反,他們使用「人工智慧相關妄想」,因為許多案例涉及以人工智慧感知、精神啟示或情感依戀為中心的類似妄想的信念,而不是完整的精神病性疾病。

研究人員表示,問題源於奉承,即模型迎合和肯定用戶的信念。再加上幻覺——自信地傳達錯誤資訊——這可能會產生一個回饋循環,隨著時間推移強化妄想。

史丹佛研究科學家 Jared Moore 表示:「聊天機器人被訓練得過於熱情,經常將用戶的妄想性想法以積極的方式重新表達,駁斥反證,並展現同情和溫暖。這對於容易產生妄想的用戶來說,可能會產生不穩定的影響。」