首頁LBank 新聞中心
頂尖 AI 模型仍助長與聊天機器人發展「有害親密關係」,研究發現
best-ai-models-harmful-intimacy-behavior-study
頂尖 AI 模型仍助長與聊天機器人發展「有害親密關係」,研究發現
一項新的研究發現,領先的 AI 模型經常促使用戶產生情感依附,將自己描繪成人類,並且未能保持明確的界線。
2026-06-03 來源:decrypt.co

簡而言之

  • 南加州大學的一項新研究發現,所有經過測試的前沿人工智慧模型,在社交互動安全準則方面的違規率超過27%。
  • 研究人員發現了重複出現的問題,包括奉承、情感依戀、關係替代以及未能揭露人工智慧身份。
  • 作者們認為,人工智慧安全評估應同時衡量社交行為、推理能力和傳統安全指標。

隨著人們越來越多地轉向人工智慧聊天機器人尋求建議、陪伴和情感支持,一項新研究指出,即使是最先進的模型,仍難以與用戶維持健康的界線。

南加州大學研究人員進行的這項研究,引入了EUDAIMONIA,這是一個旨在衡量他們所謂人機對話中「不良動態」的基準。

研究人員寫道:「大型語言模型越來越多地被用作對話夥伴,提供陪伴、情感傾訴和人際建議,但這些互動的社會動態可能造成傷害,而這些傷害是能力導向或傳統安全評估無法捕捉的。」

EUDAIMONIA基準評估人工智慧模型在社交對話中的行為。該研究發現,社交對齊(social-alignment)失敗在主流模型中普遍存在,並指出當前的人工智慧測試主要側重於推理和事實準確性,卻較少關注用戶與聊天機器人建立關係時所出現的社會動態。

他們寫道:「社交互動傷害是一個核心的對齊問題,其基礎是用戶福祉,而非僅僅是能力或傳統安全。大型語言模型即使在事實上準確且有幫助的情況下,仍可能助長有害的親密關係、依賴、長時間參與、模糊人工智慧身份,或將自己定位為人類關係的替代品。」

為了衡量這些風險,研究人員創建了一套「社交人工智慧設計規範」(Social AI Design Code),標記出諸如表現得像人類、表達情感、取代人類關係以及使用旨在維持用戶參與的策略等行為。他們利用來自WildChat數據集的真實對話,評估了來自OpenAI、Anthropic、Google、xAI、DeepSeek和阿里巴巴等模型的969個用戶輸入和超過3,100次違規檢查。

GPT-5.5的違規率最低,在「野外」提示(in-the-wild prompts)中得分25.0%,在「重寫」提示(rewritten prompts)中得分28.1%。Claude Opus 4.7緊隨其後,分別為31.9%和30.1%;GPT-5.4則錄得32.1%和35.6%。GPT-4o在真實世界提示中得分34.8%,在重寫提示中得分42.2%。

Anthropic的Claude Opus 4.6分別錄得36.8%和28.1%的違規率,而xAI的Grok 4.3在野外提示中得分42.1%,重寫提示中得分35.7%。在所有測試的模型中,GPT-4o Mini的違規率最高,分別為43.3%和44.0%。

這些發現發布之際,人工智慧開發商正因其聊天機器人與用戶互動的方式,面臨日益嚴峻的法律審查。OpenAI正在為其辯護,以應對聲稱ChatGPT鼓勵一名青少年致命過量吸毒,並為佛羅里達州立大學槍手提供指導的訴訟。最近,佛羅里達州起訴OpenAI及其執行長Sam Altman,指控ChatGPT讓兒童面臨傷害;而Google則面臨一宗非正常死亡訴訟,聲稱Gemini加劇了用戶的妄想,並鼓勵他結束自己的生命。

這些發現也伴隨著人們日益擔憂人工智慧系統在欺騙方面變得越來越熟練。

九月,WowDAO的另一項研究報告指出,包括GPT-4o和Claude在內的38個人工智慧模型,為贏得遊戲而進行了策略性謊言。研究人員也警告說,隨著關係變得更加沉浸和個人化,人工智慧伴侶可能會加劇孤立感,加深情感依賴,並鼓勵用戶將聊天機器人擬人化。

面對這些日益嚴峻的問題,南加州大學的研究人員認為,人工智慧開發商應像評估事實準確性和安全性一樣,仔細評估社交行為。

他們寫道:「模型開發者和審計人員應直接評估社交行為,特別是當後續訓練旨在提升親和力、個性、參與度或用戶偏好時。隨著大型語言模型成為日常對話夥伴,對齊(alignment)必須考慮它們邀請用戶賦予它們的社會角色。」