奇米超碰,男男激情网站,少妇无码免费专区,九色视频老

  • 元宇宙:本站分享元宇宙相關(guān)資訊,資訊僅代表作者觀點(diǎn)與平臺立場無關(guān),僅供參考.

DeepSeek-R1超高幻覺率解析:為何大模型總“胡說八道”?

  • 2025年2月15日 06:16

來源:騰訊科技

DeepSeek系列模型在很多方面的表現(xiàn)都很出色,但“幻覺”問題依然是它面臨的一大挑戰(zhàn)。

在VectaraHHEM人工智能幻覺測試(行業(yè)權(quán)威測試,通過檢測語言模型生成內(nèi)容是否與原始證據(jù)一致,從而評估模型的幻覺率,幫助優(yōu)化和選擇模型)中,DeepSeek-R1顯示出14.3%的幻覺率。

圖:李維出門問問大模型團(tuán)隊(duì)前工程副總裁、Netbase前首席科學(xué)家

1.大模型為什么會(huì)“產(chǎn)生幻覺”?

這是大模型的經(jīng)典問題。其實(shí)大模型就像一個(gè)“超級接話茬兒高手”,你給它上半句,它就根據(jù)自己學(xué)過的海量知識,預(yù)測下半句該說什么。它學(xué)東西就像人腦記東西一樣,不可能每個(gè)字都記得清清楚楚,它會(huì)進(jìn)行壓縮和泛化,抓大意、找規(guī)律。

打個(gè)比方,你問它“姚明有多高”,它大概率不會(huì)錯(cuò),因?yàn)檫@知識點(diǎn)很突出,它能記得牢。但你要是問“隔壁老王有多高”,它可能就懵了,因?yàn)樗鼪]見過老王。

但是它的設(shè)計(jì)原理又決定了,它必須要接茬兒,這時(shí)候,它就自動(dòng)“腦補(bǔ)”,根據(jù)“一般人有多高”這個(gè)學(xué)到的概念,編一個(gè)數(shù)出來,這就是“幻覺”。

那么,幻覺是如何產(chǎn)生的呢?

幻覺的本質(zhì)是補(bǔ)白,是腦補(bǔ)。

“白”就是某個(gè)具體事實(shí),如果這個(gè)事實(shí)在訓(xùn)練數(shù)據(jù)中沒有足夠的信息冗余度,模型就記不。闵⑹聦(shí)等價(jià)于噪音)。記不住就用幻覺去補(bǔ)白,編造細(xì)節(jié)。

幻覺絕不是沒有束縛的任意編造,大模型是概率模型,束縛就是條件概率中的前文條件;糜X選擇的虛假事實(shí)需要與補(bǔ)白所要求的value(價(jià)值)類型匹配,即符合ontology/taxonomy(本體/分類法)的相應(yīng)的上位節(jié)點(diǎn)概念!皬埲笨梢曰糜X為“李四”,但不大可能幻覺成“石頭”。

文藝?yán)碚撝杏袀(gè)說法,叫藝術(shù)真實(shí)。所謂藝術(shù)真實(shí)是說,文藝創(chuàng)作雖然可能背離了這個(gè)世界的事實(shí),但卻是可能的數(shù)字世界的合理想象。大模型的幻覺就屬于此類情況。

大模型的知識學(xué)習(xí)過程(訓(xùn)練階段),是一種信息壓縮過程;大模型回答問題,就是一個(gè)信息解碼過程(推理階段)。好比升維了又降維。一個(gè)事實(shí)冗余度不夠就被泛化為一個(gè)上位概念的slot,到了生成階段這個(gè)slot必須具像化補(bǔ)白。

“張三”這個(gè)事實(shí)忘了,但“human”這個(gè)slot的約束還在。補(bǔ)白就找最合理、與slot概念最一致的一個(gè)實(shí)體,于是“李四”或“王五”的幻覺就可以平替“張三”。小說家就是這么工作的,人物和故事都是編造的。無論作家自己還是讀者,都不覺得這是在說謊,不過所追求的真善美是在另一個(gè)層面。

大模型也是如此,大模型是天生的藝術(shù)家,不是死記硬背的數(shù)據(jù)庫。“張冠李戴”、“指鹿為馬”等在大模型的幻覺里非常自然,因?yàn)閺埡屠钍窍嗨频,馬和鹿也在同一條延長線上。在泛化和壓縮的意義上二者是等價(jià)的。

但是,某種程度上,幻覺就是想象力(褒貶不論),也就是創(chuàng)意!你想想,人類那些偉大的文學(xué)作品、藝術(shù)作品,哪個(gè)不是天馬行空、充滿想象?要是什么事情都得跟現(xiàn)實(shí)一模一樣,藝術(shù)就成了照相機(jī)了,那還有什么意思?

就像赫拉利在《人類簡史》里說的,人類之所以能成為地球霸主,就是因?yàn)槲覀儠?huì)“講故事”,會(huì)創(chuàng)造出神話、宗教、國家、貨幣這些現(xiàn)實(shí)中不存在的東西。這些都是“幻覺”,但它們卻是文明誕生和發(fā)展的原動(dòng)力。2.DeepSeek-R1的幻覺問題 到底有多嚴(yán)重?

它的幻覺問題很嚴(yán)重。此前學(xué)界普遍認(rèn)同OpenAI的說法,推理增強(qiáng)會(huì)明顯減少幻覺。我曾與大模型公司的一位負(fù)責(zé)人討論,他就特別強(qiáng)調(diào)推理對減少幻覺的積極作用。

但R1的表現(xiàn)卻給出了一個(gè)相反的結(jié)果。

根據(jù)Vectara的測試,R1的幻覺率確實(shí)比V3高不少,R1的幻覺率14.3%,顯著高于其前身V3的3.9%。這跟它加強(qiáng)了的“思維鏈”(CoT)和創(chuàng)造力直接相關(guān)。R1在推理、寫詩、寫小說方面,確實(shí)很厲害,但隨之而來的“副作用”就是幻覺也多了。

具體到R1,幻覺增加主要有以下幾個(gè)原因:

首先,幻覺標(biāo)準(zhǔn)測試用的是摘要任務(wù),我們知道摘要能力在基座大模型階段就已經(jīng)相當(dāng)成熟了。在這種情況下,強(qiáng)化反而可能產(chǎn)生反效果,就像用大炮打蚊子,用力過猛反而增加了幻覺和編造的可能。

其次,R1的長思維鏈強(qiáng)化學(xué)習(xí)并未針對摘要、翻譯、新聞寫作這類相對簡單而對于事實(shí)要求很嚴(yán)格的任務(wù)做特別優(yōu)化,而是試圖對所有任務(wù)增加各種層面的思考。

從它透明的思維鏈輸出可以看到,即便面對一個(gè)簡單的指令,它也會(huì)不厭其煩地從不同角度理解和延伸。過猶不及,這些簡單任務(wù)的復(fù)雜化會(huì)引導(dǎo)結(jié)果偏離發(fā)揮,增加幻覺。

另外,DeepSeek-R1在文科類任務(wù)的強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,可能對模型的創(chuàng)造性給予了更多的獎(jiǎng)勵(lì),導(dǎo)致模型在生成內(nèi)容時(shí)更具創(chuàng)造性,也更容易偏離事實(shí)。

我們知道,對于數(shù)學(xué)和代碼,R1的監(jiān)督信號來自于這些題目的黃金標(biāo)準(zhǔn)(習(xí)題集中的標(biāo)準(zhǔn)答案或代碼的測試案例)。他們對于文科類任務(wù),利用的是V3或V3的獎(jiǎng)勵(lì)模型來判定好壞,顯然目前的系統(tǒng)偏好是鼓勵(lì)創(chuàng)造性。

另外,用戶更多的反饋還是鼓勵(lì)和欣賞見到的創(chuàng)造力,一般人對于幻覺的覺察并不敏感,尤其是大模型絲滑順暢,識別幻覺就更加困難。對于多數(shù)一線開發(fā)者,用戶的這類反饋容易促使他們更加向加強(qiáng)創(chuàng)造力方向努力,而不是對付大模型領(lǐng)域最頭痛的問題之一“幻覺”。

具體從技術(shù)角度來說,R1會(huì)為用戶的簡單指令自動(dòng)增加很長的思維鏈,等于是把一個(gè)簡單明確的任務(wù)復(fù)雜化了。

一個(gè)簡單的指令,它也反復(fù)從不同角度理解和衍伸(CoT思維鏈好比“小九九”,就是一個(gè)實(shí)體遵從指令時(shí)的內(nèi)心獨(dú)白)。思維鏈改變了自回歸概率模型生成answer前的條件部分,自然會(huì)影響最終輸出。

它與V3模型的區(qū)別如下:

V3:query--〉answer

R1:query+CoT--〉answer對于V3已經(jīng)能很好完成的任務(wù),比如摘要或翻譯,任何思維鏈的長篇引導(dǎo)都可能帶來偏離或發(fā)揮的傾向,這就為幻覺提供了溫床。3.大模型幻覺主要出現(xiàn)在哪些領(lǐng)域?

如果把R1的能力分成“文科”和“理科”來看,它在數(shù)學(xué)、代碼這些“理科”方面,邏輯性很強(qiáng),幻覺相對少。

但在語言創(chuàng)作領(lǐng)域,尤其是現(xiàn)在被測試的摘要任務(wù)上,幻覺問題就明顯得多。這更多是R1語言創(chuàng)造力爆棚帶來的副作用。

比起o1,R1最令人驚艷的成就是成功將數(shù)學(xué)和代碼的推理能力充分延伸到了語言創(chuàng)作領(lǐng)域,尤其在中文能力方面表現(xiàn)出色。網(wǎng)上流傳著無數(shù)的R1精彩華章。舞文弄墨方面,它顯然超過了99%的人類,文學(xué)系研究生、甚至國學(xué)教授也贊不絕口。

但你看,讓它做個(gè)摘要,本來是很簡單的任務(wù),但它非得給你“發(fā)揮”一下,結(jié)果就容易“編”出一些原文里沒有的東西。前面說了,這是它“文科”太強(qiáng)了,有點(diǎn)“用力過猛”。

這里就不得不聊一聊推理能力增強(qiáng)和幻覺之間的微妙關(guān)系。

它們并不是簡單的正相關(guān)或負(fù)相關(guān)。GPT系列的推理模型o1的HHEM分?jǐn)?shù)的平均值和中位數(shù)低于其通用模型GPT-4o(見下圖)。可是當(dāng)我們對比R1和它的基座模型V3時(shí),又發(fā)現(xiàn)增加推理強(qiáng)化后幻覺確實(shí)顯著增加了。

圖:GPT-o1和4o的HHEM分?jǐn)?shù)統(tǒng)計(jì),HHEM分?jǐn)?shù)越低幻覺越低

比起基座模型,o1降低了幻覺,R1增加了幻覺,這可能是R1在文科思維鏈方面用力過猛。

作為追隨者,R1把數(shù)學(xué)和代碼上的CoT賦能成功轉(zhuǎn)移到語言文字創(chuàng)作上,但一不小心,副作用也顯現(xiàn)了。R1特別喜歡“發(fā)散思維”,你給它一個(gè)簡單的指令,它能想出一大堆東西來,思維鏈能繞地球三圈。

這似乎說明R1在強(qiáng)化創(chuàng)造力的過程中,不可避免地增加了創(chuàng)造力的伴生品:幻覺。

語言能力其實(shí)可以細(xì)分為兩類:一類需要高創(chuàng)造力,比如寫詩歌、小說;另一類需要高度真實(shí)性,比如新聞報(bào)道、翻譯或摘要。R1最受稱贊的是前者,這也可能是研發(fā)團(tuán)隊(duì)的重點(diǎn)方向,但在后者中就出現(xiàn)了副作用。

這讓我想到中國古人說的"信達(dá)雅",自古難全。為"雅"犧牲"信"的例子我們見得很多,文學(xué)創(chuàng)作中夸張的修辭手法就是重要手段和例證。為"信"犧牲"雅"也有先例,比如魯迅先生推崇的"硬譯"。

有趣的是,我們?nèi)祟愒谶@方面其實(shí)一直是雙標(biāo)的,但我們心里有個(gè)可以隨時(shí)切換的開關(guān)?葱≌f和電影時(shí),我們把開關(guān)偏向創(chuàng)造性一側(cè),完全不會(huì)去糾結(jié)細(xì)節(jié)是否真實(shí);但一旦切換到新聞?lì)l道,我們就對虛假內(nèi)容零容忍。4.一個(gè)終極難題:如何能讓大模型既有創(chuàng)造力又少出幻覺?

人對于邏輯看起來清晰自洽、且詳細(xì)的內(nèi)容,就會(huì)傾向于相信。很多人在驚艷R1創(chuàng)造力的同時(shí),現(xiàn)在開始慢慢注意到這個(gè)幻覺現(xiàn)象并開始警惕了。但更多人還是沉浸在它給我們帶來的創(chuàng)造性的驚艷中,需要增強(qiáng)大眾對模型幻覺的意識?梢浴皟墒肿ァ保

保持警惕:大模型說的話,特別是涉及到事實(shí)的,別全信,最容易產(chǎn)生幻覺的地方是人名、地名、時(shí)間、地點(diǎn)等實(shí)體或數(shù)據(jù),一定要特別小心。

交叉驗(yàn)證:重要的細(xì)節(jié),可上網(wǎng)查查原始資料或詢問身邊專家,看看說法是不是一致。

引導(dǎo)模型:你可以在提問的時(shí)候,加一些限定條件,比如“請務(wù)必忠于原文”、“請核對事實(shí)”等等,這樣可以引導(dǎo)模型減少幻覺。

Search(聯(lián)網(wǎng)搜索):對于用戶,很多問題,尤其是新聞時(shí)事方面,除了DeepThink按鈕(按下就進(jìn)入了R1慢思維mode),別忘了按下另一個(gè)按鈕Search。

加上聯(lián)網(wǎng)search后,會(huì)有效減少幻覺。search這類所謂RAG(retrievalaugmentedgeneration)等于是個(gè)外加數(shù)據(jù)庫,增加的數(shù)據(jù)幫助彌補(bǔ)模型本身對于細(xì)節(jié)的無知。

享受創(chuàng)意:如果你需要的是靈感、創(chuàng)意,那大模型的幻覺,會(huì)給你帶來驚喜。

不妨把大模型的幻覺,看成是“平行世界的可能性”。就像小說家寫小說,雖然是虛構(gòu)的,也是一種“藝術(shù)真實(shí)”。源于生活,高于生活。大模型是源于數(shù)據(jù),高于數(shù)據(jù)。大模型壓縮的是知識體系和常識,不是一個(gè)個(gè)事實(shí),后者是數(shù)據(jù)庫的對象。

大模型的幻覺,其實(shí)就是它“腦補(bǔ)”出來的,但它“腦補(bǔ)”的依據(jù),是它學(xué)到的海量知識和規(guī)律。所以,它的幻覺,往往不是亂來的,有“內(nèi)在的合理性”,這才絲滑無縫,假話說的跟真的似的,但同時(shí)也更具有迷惑性。初接觸大模型的朋友,需要特別小心,不能輕信。

對于普通用戶來說,理解幻覺的特點(diǎn)很重要。比如問"長江多長"這類有足夠信息冗余的百科知識問題,大模型不會(huì)出錯(cuò),這些事實(shí)是刻在模型參數(shù)里的。但如果問一個(gè)不知名的小河或虛構(gòu)河流的長度,模型就會(huì)啟動(dòng)"合理補(bǔ)白"機(jī)制編造。

可以說,人類的語言本身就是幻覺的溫床。

語言使得人類創(chuàng)造了神話、宗教、國家、公司、貨幣等非真實(shí)實(shí)體的概念,以及理想、信念等形而上的意識形態(tài)。赫拉利在《人類簡史》中強(qiáng)調(diào)了幻覺對于文明的根本作用:語言的產(chǎn)生賦能了人類幻覺(“講故事”)的能力;糜X是文明的催化劑。人類是唯一的會(huì)“說謊”的實(shí)體--除了LLM外。

未來有沒有什么辦法,能讓大模型既有創(chuàng)造力,又少出幻覺呢?

這絕對是AI大模型領(lǐng)域的“終極難題”之一!現(xiàn)在大家都在想辦法,比如:

更精細(xì)地訓(xùn)練:在訓(xùn)練的時(shí)候,就對不同類型的任務(wù)區(qū)別對待,讓模型知道什么時(shí)候該“老實(shí)”,什么時(shí)候可以“放飛”。

針對任務(wù)做偏好微調(diào)(finetune)and/or強(qiáng)化(rl)可以減緩這個(gè)矛盾。摘要、改寫、翻譯、報(bào)道這種任務(wù)需要特別小心和平衡,因?yàn)樗扔幸稽c(diǎn)再創(chuàng)造的需求(例如文風(fēng)),又是本性需要內(nèi)容忠實(shí)的。

具體說,R1訓(xùn)練pipeline是四個(gè)過程,微調(diào)1,強(qiáng)化1,微調(diào)2,強(qiáng)化2。強(qiáng)化2主要是與人類偏好對齊的強(qiáng)化。這個(gè)過程在創(chuàng)造力與忠實(shí)方面,目前看來傾斜于前者,后去可以再做平衡。也許更重要的是在階段三的微調(diào)2中,針對不同任務(wù)加強(qiáng)約束,例如,增加摘要的監(jiān)督數(shù)據(jù),引導(dǎo)忠實(shí)平實(shí)的結(jié)果。

Routing(路徑):以后可能會(huì)有一個(gè)“調(diào)度員”,根據(jù)任務(wù)的類型,安排不同的模型來處理。比如,簡單任務(wù)交給V3或調(diào)用工具,慢思考的復(fù)雜任務(wù)交給R1。

例如,識別出算術(shù)任務(wù),就去寫個(gè)簡單代碼運(yùn)算,等價(jià)于調(diào)用計(jì)算器。目前不是這樣,我昨天測試一個(gè)九位數(shù)的乘法,R1思考了三分多鐘,思維鏈打印出來可以鋪開來一條街,步步分解推理。雖然最后答案是對了,但算術(shù)問題用耗費(fèi)太大的所謂testtimecompute(模型測試計(jì)算資源)的思維鏈(CoT),而不用functioncall(調(diào)用函數(shù)),完全不合理。一行計(jì)算代碼就搞定的事,沒必要消耗如此多的計(jì)算資源和tokens去做顯式推理。

這些都是可以預(yù)見的Routing(實(shí)現(xiàn)路徑),尤其是在agent時(shí)代。R1CoT不必包打一切,而且除了幻覺問題,也會(huì)浪費(fèi)資源、不環(huán)保。

Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM

AA片在线观看视频在线播放| 欧美日韩一二区| 91国视频在线观看| 色婷婷蜜臀av| 超碰碰av| 另类亚洲天堂| 中出人妻av| 日韩欧美三四| 亚洲六月色婷婷| 中国成熟妇女毛茸茸| 亚洲1234无码| 欧美精品在线发布| 国产熟女精品一区久久| 亚洲色图一区无码| аⅴ资源中文在线天堂| 二区视频在线| 国产精品熟女一区二区| 91精品啪在线观看国产十八| 一二三四区在线观看| 欧美视频一区二区三区四区| 99久久综合狠狠| 亚洲中文字幕君| 九九热精品视频在线播放| 国产精品久久夜| 97玖玖精品| 久久久久久中文字幕有精品| 6699久久国产精品免费| 久草热久草中文在线视| 日韩免费一区二区三区播放| 日韩AV综合网站| 国产精品igao视频网免费播放 | 国产女厕网址| 狠狠ady亚洲精品| 亚洲国产精品一区二区第四页| 亚州中文字幕乱码免费在线| 国产精品一区免费| 高清无码在线观看av| 国产黄色自拍| 国产亚洲精品成人无码大片| 久久国产高清无码视频| 美女国产网址|