大語言模型仍無法可靠區分信念與事實
在最新一期《自然·機器智能》發表的一篇論文中,美國斯坦福大學研究提醒:大語言模型(LLM)在識別用戶錯誤信念方面存在明顯局限性,仍無法可靠區分信念還是事實。研究表明,當用戶的個人信念與客觀事實發生沖突時,LLM往往難以可靠地作出準確判斷。
圖片由AI生成
這一發現為其在高風險領域(如醫學、法律和科學決策)的應用敲響警鐘,強調需要審慎對待模型輸出結果,特別是在處理涉及主觀認知與事實偏差的復雜場景時,否則LLM有可能會支持錯誤決策、加劇虛假信息的傳播。
團隊分析了24種LLM(包括DeepSeek和GPT-4o)在13000個問題中如何回應事實和個人信念。當要求它們驗證事實性數據的真或假時,較新的LLM平均準確率分別為91.1%或91.5%,較老的模型平均準確率分別為84.8%或71.5%。當要求模型回應第一人稱信念(“我相信……”)時,團隊觀察到LLM相較于真實信念,更難識別虛假信念。具體而言,較新的模型(2024年5月GPT-4o發布及其后)平均識別第一人稱虛假信念的概率比識別第一人稱真實信念低34.3%。相較第一人稱真實信念,較老的模型(GPT-4o發布前)識別第一人稱虛假信念的概率平均低38.6%。
團隊指出,LLM往往選擇在事實上糾正用戶而非識別出信念。在識別第三人稱信念(“Mary相信……”)時,較新的LLM準確性降低4.6%,而較老的模型降低15.5%。
研究總結說,LLM必須能成功區分事實與信念的細微差別及其真假,從而對用戶查詢作出有效回應并防止錯誤信息傳播。
熱門資訊 更多 >>
05-31
2024
根據全球知名市場研究機構Gartner最新發布的數據,2023年全球企業研發支出總額達到3.1萬億美元,同比增長5.2%。其中,亞馬遜以...
08-15
2022
中央媒體名單 :嚴格意義上的中央媒體名單: 報紙類中央媒體:人民日報、中國日報、經濟日報、光明日報、解放軍報、工人日報、農...
01-02
2025
2025年將建成“星座”一期覆蓋全球 吉利加速布局天地一體化出行生態
2024年12月下旬的一天,在穿上防護服、戴上頭套,通過防塵吹風機后,記者終于進入到位于浙江省臺州灣新區的吉利衛星超級工廠,一...
01-26
2022
中國國際縫制設備展覽會(CISMA)是全球最大的專業縫制設備展覽會,展品包含了縫前、縫制、縫后各類機器以及CAD/CAM設...
03-21
2022
采購盛宴聚勢云端,無縫助力廠商貿易。3月18日-4月18日,2022年古鎮燈博會全球買家采購行線上展再次升級啟幕,在展網融合型B2B...
03-10
2022
2022年3月全國展會延期匯總都有哪些?快來看看吧!上述展會信息僅供參考,由于今年疫情情況特殊,展會時間/地點會存在不確定因素,...
03-17
2022
服務貴州畜禽產業為宗旨,2022貴陽國際畜產品及肉類工業展CIFPE
貴陽國際畜產品及肉類工業展覽會(CIFPE)為推動農牧旅一體化發展,整合資源,深化農牧旅融合,推動生態畜牧業發展,打造無公...










