中投網(wǎng)2025-03-10 11:41 來源:中投顧問產(chǎn)業(yè)研究大腦
中投顧問重磅推出"產(chǎn)業(yè)大腦"系列產(chǎn)品,高效賦能產(chǎn)業(yè)投資及產(chǎn)業(yè)發(fā)展各種工作場景,歡迎試用體驗! | ||||
---|---|---|---|---|
產(chǎn)品 | 核心功能定位 | 登陸使用 | 試用申請 | |
產(chǎn)業(yè)投資大腦 | 新興產(chǎn)業(yè)投資機會的高效挖掘工具 | 登陸 > | 申請 > | |
產(chǎn)業(yè)招商大腦 | 大數(shù)據(jù)精準招商專業(yè)平臺 | 登陸 > | 申請 > | |
產(chǎn)業(yè)研究大腦 | 產(chǎn)業(yè)研究工作的一站式解決方案 | 登陸 > | 申請 > |
聯(lián)系電話: 400 008 0586; 0755-82571568
微信掃碼:
一、大模型幻覺問題的定義與影響
(一)大模型幻覺的定義
大模型幻覺(Hallucination)是指在生成式人工智能模型(如大型語言模型)中,模型生成的內(nèi)容與現(xiàn)實世界中的事實、邏輯或用戶輸入的上下文不一致的現(xiàn)象。這種現(xiàn)象通常表現(xiàn)為模型“說胡話”或生成錯誤、誤導(dǎo)性甚至完全虛構(gòu)的信息。
幻覺問題可以分為以下兩類:
1、事實性幻覺(Factual Hallucination)
模型生成的內(nèi)容與可驗證的事實不符。例如,模型可能會錯誤地聲稱“愛因斯坦在1905年發(fā)現(xiàn)了相對論”,而實際上狹義相對論是在1905年提出的,廣義相對論則是在1915年。這種幻覺可能源于模型訓(xùn)練數(shù)據(jù)中的錯誤信息或模型對知識的不準確理解。
2、忠實性幻覺(Faithfulness Hallucination)
模型生成的內(nèi)容與用戶輸入的指令或上下文不一致。例如,用戶要求模型總結(jié)一篇關(guān)于“人工智能在醫(yī)療中的應(yīng)用”的文章,但模型卻生成了關(guān)于“人工智能在金融領(lǐng)域”的內(nèi)容。這種幻覺可能源于模型對用戶指令的誤解或生成過程中的隨機性。
(二)大模型幻覺問題的成因
幻覺問題的產(chǎn)生通常與以下幾個因素有關(guān):
1、數(shù)據(jù)質(zhì)量與偏見
訓(xùn)練數(shù)據(jù)中可能包含錯誤信息、偏見或過時的知識,導(dǎo)致模型學(xué)習(xí)到不準確的內(nèi)容。此外,數(shù)據(jù)的多樣性和代表性不足也可能影響模型的生成質(zhì)量。
2、訓(xùn)練過程的局限性
模型通常采用最大似然估計(MLE)進行訓(xùn)練,這種方法傾向于生成最常見的輸出,但可能與真實情況不符。此外,訓(xùn)練過程中的過擬合或欠擬合也可能導(dǎo)致幻覺。
3、模型架構(gòu)的限制
大模型通常采用單向建模方式,難以捕捉復(fù)雜的因果關(guān)系和上下文信息。這種架構(gòu)限制可能導(dǎo)致模型在生成內(nèi)容時出現(xiàn)邏輯不一致或與上下文脫節(jié)的情況。
4、解碼策略的隨機性
在生成過程中,模型可能會引入隨機性以增加輸出的多樣性,但這也可能導(dǎo)致生成內(nèi)容偏離事實或上下文。
(三)大模型幻覺問題的影響
大模型幻覺問題對模型的應(yīng)用和推廣帶來了諸多挑戰(zhàn),主要體現(xiàn)在以下幾個方面:
1、信任度降低
當模型生成錯誤或誤導(dǎo)性內(nèi)容時,用戶對其信任度會顯著下降。這不僅影響用戶體驗,還可能阻礙大模型在關(guān)鍵領(lǐng)域的應(yīng)用,如醫(yī)療、法律和金融等。
2、應(yīng)用受限
在對準確性要求極高的領(lǐng)域,如醫(yī)療診斷、法律咨詢等,幻覺問題可能導(dǎo)致嚴重的后果。例如,模型生成錯誤的醫(yī)療建議可能會危及患者的生命安全。
3、資源浪費
幻覺問題可能導(dǎo)致用戶花費更多時間和精力去驗證模型生成的內(nèi)容,從而降低工作效率。此外,頻繁的錯誤輸出也可能增加企業(yè)的運營成本。
4、社會影響
在傳播信息方面,大模型的幻覺問題可能導(dǎo)致錯誤信息的擴散,進而影響社會輿論和公眾認知。例如,模型生成的虛假新聞可能會誤導(dǎo)公眾,引發(fā)社會恐慌。
二、大模型幻覺的典型案例
。ㄒ唬┲覍嵭曰糜X
案例一:在這個例子中,幻覺具體表現(xiàn)為模型對“外資總部機構(gòu)”這一術(shù)語的誤解和錯誤使用。正確的文本中提到的是“外資總部機構(gòu)”,這指的是在蘇州設(shè)立的外資企業(yè)的總部數(shù)量。錯誤的文本中錯誤地將其理解為“外資研發(fā)中心”,這通常指的是外資企業(yè)設(shè)立的研發(fā)機構(gòu),與總部機構(gòu)在功能和意義上有所不同。
圖表:案例一圖示
資料來源:中投產(chǎn)業(yè)研究院
案例二:在這個例子中,幻覺具體表現(xiàn)為模型錯誤地將原文中提到的“武漢”替換為“北京”,并錯誤地將與武漢相關(guān)的科技創(chuàng)新成就和設(shè)施歸因于北京。這種錯誤的歸屬可能會導(dǎo)致讀者對北京市和武漢市的科技創(chuàng)新能力和成就產(chǎn)生誤解。
圖表:案例二圖示
資料來源:中投產(chǎn)業(yè)研究院
案例三:在這個案例中,大模型產(chǎn)生的幻覺問題涉及到對地理位置的錯誤描述和分析方向的偏離。
地理位置的錯誤描述:正確的文本中提到的是立訊精密在蘇州的發(fā)展情況,包括與蘇州相城經(jīng)開區(qū)的簽約和項目的落地。錯誤的文本中錯誤地提到了“立訊精密在西安失失的機器人研發(fā)制造正式開工”,這與正確的文本中提到的蘇州的地理位置不符。
分析方向的偏離:正確的文本中分析的是立訊精密在蘇州的項目投資和產(chǎn)業(yè)布局,特別是與蘇州相城經(jīng)開區(qū)的合作。錯誤的文本中則偏離了這一分析方向,錯誤地分析了立訊精密在西安的發(fā)展情況,這與用戶指令或上下文不符。
圖表:案例三圖示
資料來源:中投產(chǎn)業(yè)研究院
(二)事實性幻覺
案例四:這個案例展示了大模型在處理地理和行政區(qū)域信息時可能出現(xiàn)的事實性幻覺。正確的文本中提到的是“廣東人工智能核心產(chǎn)業(yè)規(guī)模達1500億元”,這指的是整個廣東省的人工智能產(chǎn)業(yè)規(guī)模。錯誤的文本中錯誤地將其理解為“廣州則在人工智能產(chǎn)業(yè)方面表現(xiàn)實出,產(chǎn)業(yè)規(guī)模實破1500億元”,這將整個廣東省的產(chǎn)業(yè)規(guī)模錯誤地歸因于廣州市,縮小了地理范圍并可能導(dǎo)致對廣州市產(chǎn)業(yè)規(guī)模的誤解。
圖表:案例四圖示
資料來源:中投產(chǎn)業(yè)研究院
案例五:在這個案例中,大模型產(chǎn)生的幻覺問題涉及到時間范圍的不準確描述,這是一種事實性幻覺。正確的文本中明確指出時間范圍是“2014-2024年間”,這是一個具體且明確的時間段。錯誤的文本中將時間范圍描述為“過去10年”,這種描述雖然在某些情況下可能與“2014-2024年間”相吻合,但缺乏具體性和精確性,可能導(dǎo)致理解上的混淆。
圖表:案例五圖示
資料來源:中投產(chǎn)業(yè)研究院
案例六:在這個案例中,大模型產(chǎn)生的幻覺問題涉及到對未來數(shù)據(jù)的預(yù)測與實際數(shù)據(jù)之間的差異,這種幻覺發(fā)生在模型試圖預(yù)測或估計未來事件或數(shù)據(jù),但提供的預(yù)測與實際發(fā)生的情況不符時。錯誤的文本中預(yù)測“2024年,上海GDP有望突破5萬億元人民幣”,這是一個具體的預(yù)測值。正確的文本中提供了實際的統(tǒng)計數(shù)據(jù):“2024年,上海全市實現(xiàn)地區(qū)生產(chǎn)總值(GDP)53926.71億元”,這個數(shù)值低于預(yù)測值。
圖表:案例六圖示
資料來源:中投產(chǎn)業(yè)研究院
案例七:在這個案例中,大模型產(chǎn)生的幻覺問題涉及到對特定分類數(shù)據(jù)的不完整或錯誤表述。正確的文本中明確區(qū)分了“國家級專精特新企業(yè)”和“市級專精特新企業(yè)”,并提供了各自的具體數(shù)量:“國家級專精特新企業(yè)達到743家,市級專精特新企業(yè)超過8600家”。錯誤的文本中則沒有區(qū)分這兩類企業(yè),僅提到“專精特新企業(yè)超過8600家”,這可能誤導(dǎo)讀者認為所有的專精特新企業(yè)都是市級的,從而忽略了國家級專精特新企業(yè)的存在和數(shù)量。
圖表:案例七圖示
資料來源:中投產(chǎn)業(yè)研究院
案例八:在這個案例中,大模型產(chǎn)生的幻覺問題涉及到統(tǒng)計數(shù)據(jù)的不準確。正確的文本中提到的是“杭州的數(shù)字經(jīng)濟核心產(chǎn)業(yè)增加值占GDP比重在2023年提升至28.3%”。錯誤的文本中錯誤地將這一比例提高到了“30%”。這種錯誤的數(shù)據(jù)可能會導(dǎo)致讀者對杭州數(shù)字經(jīng)濟在GDP中的實際占比產(chǎn)生誤解,影響對杭州經(jīng)濟結(jié)構(gòu)和發(fā)展方向的理解。
圖表:案例八圖示
資料來源:中投產(chǎn)業(yè)研究院
案例九:在這個案例中,大模型產(chǎn)生的幻覺問題涉及到對時間范圍的不完整表述。正確的文本中明確提到了時間范圍:“自2023年8月開源以來,截至2024年9月中旬”,這提供了一個完整的時間框架,說明了通義千問開源模型下載量和衍生模型總數(shù)的統(tǒng)計時間。錯誤的文本中僅提到“自2023年8月開源以來”,沒有提供截止時間,這可能導(dǎo)致讀者誤解為這些數(shù)據(jù)是持續(xù)累積的,而不是截至某個特定時間點的統(tǒng)計結(jié)果。
圖表:案例九圖示
資料來源:中投產(chǎn)業(yè)研究院
案例十:在這個案例中,大模型產(chǎn)生的幻覺問題涉及到對未來或未發(fā)生事件的錯誤預(yù)測和數(shù)據(jù)編撰。這種幻覺發(fā)生在模型試圖提供關(guān)于未來事件或未發(fā)生事件的具體數(shù)據(jù)或預(yù)測時,但這些預(yù)測與實際情況不符,或者是基于模型自身編撰而非基于可靠數(shù)據(jù)源。正確的文本中提到的是截至“十三五”末(即2020年末),合肥國資累計向戰(zhàn)新產(chǎn)業(yè)項目投入資金超過1200億元,資本放大倍數(shù)是1:6.32。錯誤的文本中錯誤地將時間節(jié)點提前到2024年,并編纂了合肥國資累計投資已超2000億元,資本放大倍數(shù)為1:5。
圖表:案例十圖示
資料來源:中投產(chǎn)業(yè)研究院
案例十一:在這個案例中,大模型產(chǎn)生的幻覺問題涉及到時間信息的錯誤。正確的文本中提到的時間節(jié)點是“截至2021年6月”,這是一個確切的時間點,用于描述合肥市天使基金的投資情況。錯誤的文本中錯誤地將時間節(jié)點更新為“截至2024年6月”,這與正確的時間信息不符,可能導(dǎo)致讀者對天使基金的投資時間和成果產(chǎn)生誤解。
圖表:案例十一圖示
資料來源:中投產(chǎn)業(yè)研究院
案例十二:在這個案例中,大模型產(chǎn)生的幻覺問題涉及到對政策文件的時間和內(nèi)容的錯誤引用,這種幻覺發(fā)生在模型生成的內(nèi)容中包含了與可驗證事實不符的具體信息。
時間信息的錯誤引用:正確的文本中提到的是2023年8月,常州市人民政府網(wǎng)站印發(fā)了《常州市加快構(gòu)建新能源汽車零部件產(chǎn)業(yè)生態(tài)工作方案》。錯誤的文本中省略了政策文件印發(fā)的具體時間,僅提到了2023年,這可能導(dǎo)致讀者對政策發(fā)布時間的誤解。
未來計劃的錯誤表述:正確的文本中提到的是計劃到2025年,常州新增關(guān)鍵零部件項目240個,總投資超2000億元。錯誤的文本中錯誤地將這一未來計劃表述為已經(jīng)發(fā)生的事件,即“2023年,常州新增關(guān)鍵零部件項目240個,總投資超2000億元”,這與正確的時間線和計劃不符。
圖表:案例十二圖示
資料來源:中投產(chǎn)業(yè)研究院
案例十三:在這個案例中,大模型產(chǎn)生的幻覺問題涉及到編撰了一個不存在的政策文件,這種幻覺發(fā)生在模型生成的內(nèi)容中包含了與可驗證事實不符的具體信息,尤其是關(guān)于政策文件或官方規(guī)劃的存在與否。具體來說,錯誤的文本中提到了“《太陽能熱發(fā)電產(chǎn)業(yè)發(fā)展規(guī)劃》”這一政策文件,作為包頭市戰(zhàn)略轉(zhuǎn)型和新能源產(chǎn)業(yè)布局的依據(jù)。正確的信息應(yīng)該是該政策文件不存在,或者至少在公開資料中查無此文件,模型錯誤地引用了一個不存在的政策文件來支持其論述。
圖表:案例十三圖示
資料來源:中投產(chǎn)業(yè)研究院
三、避免大模型幻覺的策略
在應(yīng)用大模型時,我們可以從以下幾個方面來闡述避免大模型幻覺的策略:
。ㄒ唬┨岣邤(shù)據(jù)質(zhì)量
確保訓(xùn)練數(shù)據(jù)的高質(zhì)量和多樣性至關(guān)重要。訓(xùn)練數(shù)據(jù)應(yīng)做到標注來源、時效性和引用鏈,使用準確、權(quán)威的數(shù)據(jù)源,避免偏見和錯誤信息的引入。此外,建立行業(yè)共享的“幻覺”黑名單庫,杜絕使用可能會產(chǎn)生“幻覺”的內(nèi)容。
。ǘ┱{(diào)整模型架構(gòu)與訓(xùn)練策略
可以采用“預(yù)訓(xùn)練+強化學(xué)習(xí)+人類反饋”的混合范式,例如通過人工標注數(shù)據(jù)迭代獎勵模型(Reward Model),約束生成邊界。對于金融、醫(yī)療等領(lǐng)域,強制調(diào)用監(jiān)管認證的知識庫,減少自由生成風(fēng)險。對于高風(fēng)險領(lǐng)域生成內(nèi)容需附加置信度評分與溯源標識。
。ㄈ┩晟茖崟r監(jiān)控與反饋機制
在AI大模型部署后,需要建立實時監(jiān)控系統(tǒng),檢測并糾正潛在的錯誤輸出,使用多模態(tài)交叉驗證(如文本與權(quán)威數(shù)據(jù)庫比對)。通過用戶反饋,不斷完善模型的性能和可靠性,動態(tài)修正模型輸出。
。ㄋ模┊a(chǎn)品設(shè)計
產(chǎn)品設(shè)計的時候去避免大模型生成幻覺內(nèi)容,比如在生成書面內(nèi)容時關(guān)注觀點類文章,而不是事實類文章,有助于降低幻覺。
(五)用戶編輯與責(zé)任
讓用戶編輯大模型生成的內(nèi)容,告訴用戶對生成內(nèi)容負責(zé)。
。┮膮⒖寂c可選模式
給用戶展示引用的內(nèi)容,提供可選模式,比如精準模式(以計算成本為代價)等。
。ㄆ撸┫拗戚敵龊洼啍(shù)
更長更復(fù)雜的輸出更容易產(chǎn)生幻覺,因此限制輸出和輪數(shù)可以減少幻覺。
。ò耍┙Y(jié)構(gòu)化輸入輸出
預(yù)置一些結(jié)構(gòu)化模版,以減少幻覺。
。ň牛㏄rompt Engineering
通過Meta prompt引導(dǎo)大模型“不該做什么”有助于降低幻覺。
。ㄊ┧季S鏈(Chain of Thought)
思維鏈由“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”提出,因為LLM用來預(yù)測下一個token的概率而不是推理,所以指定模型生成推理步驟可以讓模型更接近推理。
。ㄊ唬㏑AG:檢索增強的生成(Retrieval-Augmented Generation)
先檢索,后生成。但RAG會過度依賴空或錯誤的檢索結(jié)果導(dǎo)致幻覺,因此注意事項。
通過上述策略,我們可以有效地減少大模型幻覺的產(chǎn)生,提高模型的準確性和可靠性。這些策略不僅適用于專業(yè)人士,也可以幫助普通用戶更好地理解和使用大模型,避免陷入模型生成內(nèi)容的表象之中。
產(chǎn)業(yè)投資與產(chǎn)業(yè)發(fā)展服務(wù)一體化解決方案專家。掃一掃立即關(guān)注。
多維度的產(chǎn)業(yè)研究和分析,把握未來發(fā)展機會。掃碼關(guān)注,獲取前沿行業(yè)報告。
湖南省奧美森(郴州)機械裝備工業(yè)園發(fā)展規(guī)劃
四川雅安川西產(chǎn)業(yè)園規(guī)劃
長治市郊區(qū)區(qū)域產(chǎn)業(yè)發(fā)展規(guī)劃
河北省·張家口市塞北管理區(qū)經(jīng)濟技術(shù)開發(fā)區(qū)產(chǎn)業(yè)規(guī)劃與招商策劃
廣東佛山三水新城產(chǎn)業(yè)規(guī)劃
福建海峽兩岸青少年文化創(chuàng)新產(chǎn)業(yè)園區(qū)開發(fā)策劃
潁上縣生態(tài)綠色大健康產(chǎn)業(yè)規(guī)劃
吉林省大安市產(chǎn)業(yè)發(fā)展規(guī)劃