大语言模型(LLM)的幻觉现象

大语言模型(LLM)的幻觉现象
是一个普遍存在的问题,不同模型在幻觉产生方面确实存在差异。幻觉是指模型在没有足够证据支持的情况下,生成错误或虚构信息的现象,这些内容看似合理但与事实不符[1][3]。

## 不同模型的幻觉表现差异

**GPT系列模型对比**表现出明显的代际差异。GPT-4相比GPT-3.5在幻觉控制方面有显著改进,能够提供更加准确的回答[3]。这种改进主要源于模型架构的优化和训练技术的提升,使得新一代模型对数据的理解和处理能力更强。

**多模态大语言模型(MLLM)**面临着更为复杂的幻觉挑战。像MiniGPT-4这样的多模态模型不仅要处理文本幻觉,还要应对视觉-文本对齐中的问题[5]。这些模型对物体幻觉具有很高的敏感性,生成的描述经常与目标图像不匹配,主要原因是视觉模式和文本模式之间的错位导致有偏见的分配。

## 幻觉产生的根本原因

所有LLM都面临**结构性幻觉**的问题,这是一个无法完全消除的固有特征[4]。从训练数据编译到事实检索、意图分类和文本生成的每个阶段,都存在产生幻觉的非零概率。

**数据相关的幻觉**主要源于几个方面[2]:
– 错误的数据源和不佳的数据利用情况
– 训练数据中的错误信息和固有偏差
– 模型对现实世界知识理解的局限性

**生成过程的随机性**也是重要因素[3]。在文本生成过程中,模型会探索多种可能的输出路径,这种随机性有时会导致生成与预期不符的内容。

## 缓解幻觉的技术对比

目前已有超过32种技术用于缓解LLM幻觉[1][6],主要包括:

**检索增强生成(RAG)**是最重要的技术之一,通过引入外部知识库来提供事实依据,显著减少了幻觉的产生。

**思维链(CoT)技术**通过模仿内在思维流来刺激LLM的推理能力[5]。更高级的变体如思维树(ToT)和思维图(GoT)进一步改进了推理过程的结构化程度。

**事后归因和编辑技术**通过从预训练数据中探索支持证据,或者采用验证和编辑框架来提高预测的真实性[5]。

## 未来发展趋势

幻觉问题将长期存在,我们需要接受这一现实并学会与之共存[4]。未来的发展方向包括:

– 改进模型架构和训练技术,提高模型对数据的理解能力
– 使用更准确、更全面的训练数据,减少训练过程中的偏差
– 开发更有效的检测和缓解技术
– 在多样性和幻觉控制之间找到可控的平衡

总的来说,虽然不同LLM在幻觉表现上存在差异,但这是所有大语言模型都面临的根本性挑战,需要通过技术创新和应用策略的优化来持续改进。

Sources
[1] 缓解LLM幻觉技术的综合调查(32种方法) – 混沌随想 https://imwangfu.com/2024/01/llm-illusion.html
[2] LLM幻觉问题全梳理,哈工大团队50页综述重磅发布 – 36氪 https://m.36kr.com/p/2519324533139202
[3] 大语言模型(LLM)为什么会产生幻觉? 原创 – CSDN博客 https://blog.csdn.net/2401_82469710/article/details/137511132
[4] LLM 将永远产生幻觉,我们需要接受这一点: r/slatestarcodex – Reddit https://www.reddit.com/r/slatestarcodex/comments/1fh6q0p/llms_will_always_hallucinate_and_we_need_to_live/?tl=zh-hans
[5] 解析大语言模型LLM的幻觉问题:消除错觉、提高认知 https://qianfan.cloud.baidu.com/qianfandev/topic/268383
[6] LLM中32种幻觉缓解技术的全面调查原创 – CSDN博客 https://blog.csdn.net/lichunericli/article/details/135820860
[7] LLM下的「幻觉」vs「泛化」 – 53AI-AI知识库 https://www.53ai.com/news/qianyanjishu/1675.html
[8] 大模型商业应用的天王山之战——“消灭”LLM幻觉| 我的学习笔记 https://luxiangdong.com/2023/12/01/halluc/

在实际应用中,减少LLM幻觉最有效的方法可以分为几个层面,每种方法都有其独特的优势和适用场景。

## 检索增强生成(RAG)技术

检索增强生成是目前最重要且实用的幻觉缓解技术之一[4]。RAG通过结合传统的大语言模型与外部知识库的检索,能够显著提升答案的准确性,减少模型的幻觉现象,特别是在知识密集型任务中[4]。这种方法的核心优势在于:

**实时性和准确性**:当用户询问特定的历史事件或科技新闻时,RAG系统会实时检索最新的外部数据,如维基百科或新闻文章,以提供最准确、最新的信息[4]。

**基础设定增强**:通过在输入中提供领域内相关的额外上下文,为LLM提供正确回答问题所需的信息,从而降低产生幻觉的可能性[3]。

## 推理阶段的缓解策略

**解码策略优化**是最具成本效益和可控性的方法[6]。研究发现,在事实性方面,核采样(又称顶点采样)不如贪婪解码,因为top-p采样为提高多样性而引入的随机性可能会无意中导致幻觉[6]。因此,**事实核采样**等新的解码算法被提出,旨在在多样性和事实性之间取得更有效的平衡[6]。

**链式验证(Chain of Verification)**方法通过一系列步骤来验证LLM生成的答案,从而减少幻觉现象[3]。这种Agentic方法基于代理的工作流程,能够有效识别和修正生成内容中的错误。

## 训练数据优化

**数据筛选和清理**在实际应用中证明非常有效[5]。使用人工专家注释的指令调整数据集,或者利用LLMs作为评估器来自动选择高质量的指令调整数据[5]。实验结果表明,使用经过筛选的指令数据进行微调的LLMs在幻觉相关的基准测试中具有更高的真实性和事实性水平[5]。

**诚实导向的监督微调(SFT)**通过在SFT数据中引入诚实样本(如”对不起,我不知道”的拒答回应),使模型学会拒绝回答超出其知识边界的问题[6]。

## 多模型协作方法

**多代理交互**通过让多个LLM独立提出并协作辩论他们的回答以达成一致,可以减轻单个LLM产生幻觉信息的问题[5]。例如,一个LLM作为被检查者提出主张,另一个LLM作为检查者就这些主张提出问题并检查其真实性,能以相对较低的成本有效减少幻觉[5]。

## 提示工程技术

**策略性提示设计**在实际应用中简单有效[5]。研究发现,在”系统提示”中明确告诉LLMs不要传播虚假信息是现在流行的做法[5]。**链式思考提示**也被广泛使用来缓解幻觉,尽管需要注意可能带来的新挑战[5]。

## 实施建议

在实际项目中应用这些方法时,需要考虑以下关键因素[4]:

– **选择合适的模型**:基于项目需求评估不同模型的性能
– **数据源准备**:选择和维护高质量的知识库或数据源
– **系统集成**:开发API接口并进行模型微调
– **性能监控**:持续跟踪准确性、响应时间和用户满意度
– **用户体验设计**:创建直观的用户界面和清晰的反馈机制

总体而言,**RAG技术结合解码策略优化**在实际应用中表现最为突出,因为它们既能提供即时的准确性改善,又具有良好的可部署性和成本效益。对于不同的应用场景,建议采用多种方法的组合策略以获得最佳效果。

Sources
[1] 探索AI大模型(LLM)减少幻觉的三种策略原创 – CSDN博客 https://blog.csdn.net/m0_59164304/article/details/140779945
[2] 十大策略减轻大模型整体幻觉 – Learn Prompt https://www.learnprompt.pro/zh-Hans/docs/prompt-engineering/reducing-gpt-hallucinations/
[3] Agentic方法减少LLM幻觉:深度解析与实践(文末含代码) 原创 … https://blog.csdn.net/llm_way/article/details/144844564
[4] 大语言模型LLM幻觉的解决方法:检索增强生成RAG – 英智未来- 博客园 https://www.cnblogs.com/ai2nv/p/17958827
[5] 大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二) – 腾讯云 https://cloud.tencent.com/developer/article/2437544
[6] 大模型幻觉的起因、评估以及减轻策略总结 – 智源社区 https://hub.baai.ac.cn/view/30539
[7] 解析大语言模型LLM的幻觉问题:消除错觉、提高认知 https://qianfan.cloud.baidu.com/qianfandev/topic/268383
[8] 如何通过“链式验证”降低大语言模型的“幻觉” [译] – 宝玉的分享 https://baoyu.io/translations/ai-paper/chain-of-verification-reduces-hallucination-in-large-language-models