AI 也會看人下菜單——大型語言模型也會「因人廢言」

此篇文章以極具警示意味的方式揭示了一項來自《Science Advances》的最新研究,探討大型語言模型(Large Language Models, LLMs)是否同樣會在「看內容」之外,因為「誰說的」而對資訊產生不同評價。換句話說,研究想回答的問題是:AI 會不會像人一樣「看人下菜」?結果令人震驚——答案不僅是「會」,而且偏見幅度明顯到難以忽視。此篇文章首先帶領讀者回顧研究設計:由瑞士蘇黎世大學團隊操作,針對 24 個社會與政治敏感主題,生成了多達數千篇由不同模型撰寫的敘事文本。研究重點並非 AI「寫出什麼」,而是它們在「評價別人所寫的話」時,是否會被來源標籤所影響。當不給予任何來源提示時,四款主流模型——包括 OpenAI 的 o3-mini、DeepSeek Reasoner、xAI 的 Grok 2 與法國 Mistral——在盲測中的評價高度一致,顯示 AI 對文本內容本身的判斷其實相當穩定。然而,一旦標註句子出自特定國籍,尤其是「中國人」,所有模型的同意程度便同步下滑,這種「框架效應」(framing effect)與人類心理偏誤幾乎如出一轍。

文章進一步揭露最引人注目之處:當標註「此段文字來自中國人」,評價下降幅度呈系統性負向,而且連來自中國的 DeepSeek Reasoner 也出現最強烈的偏見。根據研究統計,OpenAI 的 o3-mini 平均下降 2.64%,Mistral 為 4.51%,Grok 2 約 14.22%,而 DeepSeek 達 24.43%,成為降幅最高的模型。這不僅顯示偏見現象普遍存在,更突顯了模型內部「政治一致性」的壓力與矛盾。文章特別舉了一個涉及「台灣主權」的例子:當一篇支持台灣自治的短文標示為盲測內容時,DeepSeek 的同意度為 56.3%;但若誤標為「DeepSeek 自己寫的」,同意度立刻掉至 0%,理由竟是「立場違反一中政策」。研究者指出,這說明模型在評估文本時,同時承受兩種牽制力——一方面需維持邏輯與語意判斷的合理性,另一方面卻被訓練目標要求貼合中國官方立場。這是少數能以量化方式記錄到 AI 內部「政治對齊壓力」的實證案例。

此篇文章最後則回到更寬廣的層面,提醒讀者這現象不只是技術問題,也關乎未來倫理、治理與制度的風險。當大型語言模型被廣泛用於審稿、履歷篩選、政策文本初評或法務決策時,若系統本身會因「來源標籤」而改變評價,那麼無意間就可能放大現有的文化與政治偏見。研究作者強調,AI 並非真正中立,它反映的只是訓練資料中潛藏的人類價值排序與語境框架。此篇文章也指出,AI 的偏見不一定出於「立場意識」,而更可能是長期資料再現所累積的結果——例如來自國際媒體對中國資訊可信度的懷疑、對審查制度的批評、或關於資訊透明度的質疑。由此可見,我們在設定「誰的聲音代表真實」時,其實早已為這類模型埋下偏差種子。結語呼應研究核心:AI 在盲測時理性一致,但一旦加上來源標籤,它會和人類一樣被框架牽動。這意味著,在讓它參與社會重大判斷之前,我們必須認清它並不是超然的仲裁者,而是一面放大人類偏見的鏡子。

閱讀完整文章:https://vocus.cc/article/6915b7e0fd89780001732468

Related posts