大语言模型（LLM）的幻觉现象

是一个普遍存在的问题，不同模型在幻觉产生方面确实存在差异。幻觉是指模型在没有足够证据支持的情况下，生成错误或虚构信息的现象，这些内容看似合理但与事实不符[1][3]。

## 不同模型的幻觉表现差异

**GPT系列模型对比**表现出明显的代际差异。GPT-4相比GPT-3.5在幻觉控制方面有显著改进，能够提供更加准确的回答[3]。这种改进主要源于模型架构的优化和训练技术的提升，使得新一代模型对数据的理解和处理能力更强。

**多模态大语言模型（MLLM）**面临着更为复杂的幻觉挑战。像MiniGPT-4这样的多模态模型不仅要处理文本幻觉，还要应对视觉-文本对齐中的问题[5]。这些模型对物体幻觉具有很高的敏感性，生成的描述经常与目标图像不匹配，主要原因是视觉模式和文本模式之间的错位导致有偏见的分配。

## 幻觉产生的根本原因

所有LLM都面临**结构性幻觉**的问题，这是一个无法完全消除的固有特征[4]。从训练数据编译到事实检索、意图分类和文本生成的每个阶段，都存在产生幻觉的非零概率。

**数据相关的幻觉**主要源于几个方面[2]：
– 错误的数据源和不佳的数据利用情况
– 训练数据中的错误信息和固有偏差
– 模型对现实世界知识理解的局限性

**生成过程的随机性**也是重要因素[3]。在文本生成过程中，模型会探索多种可能的输出路径，这种随机性有时会导致生成与预期不符的内容。

## 缓解幻觉的技术对比

目前已有超过32种技术用于缓解LLM幻觉[1][6]，主要包括：

**检索增强生成（RAG）**是最重要的技术之一，通过引入外部知识库来提供事实依据，显著减少了幻觉的产生。

**思维链（CoT）技术**通过模仿内在思维流来刺激LLM的推理能力[5]。更高级的变体如思维树（ToT）和思维图（GoT）进一步改进了推理过程的结构化程度。

**事后归因和编辑技术**通过从预训练数据中探索支持证据，或者采用验证和编辑框架来提高预测的真实性[5]。

## 未来发展趋势

幻觉问题将长期存在，我们需要接受这一现实并学会与之共存[4]。未来的发展方向包括：

– 改进模型架构和训练技术，提高模型对数据的理解能力
– 使用更准确、更全面的训练数据，减少训练过程中的偏差
– 开发更有效的检测和缓解技术
– 在多样性和幻觉控制之间找到可控的平衡

总的来说，虽然不同LLM在幻觉表现上存在差异，但这是所有大语言模型都面临的根本性挑战，需要通过技术创新和应用策略的优化来持续改进。

Sources
[1] 缓解LLM幻觉技术的综合调查（32种方法） – 混沌随想 https://imwangfu.com/2024/01/llm-illusion.html
[2] LLM幻觉问题全梳理，哈工大团队50页综述重磅发布 – 36氪 https://m.36kr.com/p/2519324533139202
[3] 大语言模型（LLM）为什么会产生幻觉？原创 – CSDN博客 https://blog.csdn.net/2401_82469710/article/details/137511132
[4] LLM 将永远产生幻觉，我们需要接受这一点: r/slatestarcodex – Reddit https://www.reddit.com/r/slatestarcodex/comments/1fh6q0p/llms_will_always_hallucinate_and_we_need_to_live/?tl=zh-hans
[5] 解析大语言模型LLM的幻觉问题：消除错觉、提高认知 https://qianfan.cloud.baidu.com/qianfandev/topic/268383
[6] LLM中32种幻觉缓解技术的全面调查原创 – CSDN博客 https://blog.csdn.net/lichunericli/article/details/135820860
[7] LLM下的「幻觉」vs「泛化」 – 53AI-AI知识库 https://www.53ai.com/news/qianyanjishu/1675.html
[8] 大模型商业应用的天王山之战——“消灭”LLM幻觉| 我的学习笔记 https://luxiangdong.com/2023/12/01/halluc/

在实际应用中，减少LLM幻觉最有效的方法可以分为几个层面，每种方法都有其独特的优势和适用场景。

## 检索增强生成（RAG）技术

检索增强生成是目前最重要且实用的幻觉缓解技术之一[4]。RAG通过结合传统的大语言模型与外部知识库的检索，能够显著提升答案的准确性，减少模型的幻觉现象，特别是在知识密集型任务中[4]。这种方法的核心优势在于：

**实时性和准确性**：当用户询问特定的历史事件或科技新闻时，RAG系统会实时检索最新的外部数据，如维基百科或新闻文章，以提供最准确、最新的信息[4]。

**基础设定增强**：通过在输入中提供领域内相关的额外上下文，为LLM提供正确回答问题所需的信息，从而降低产生幻觉的可能性[3]。

## 推理阶段的缓解策略

**解码策略优化**是最具成本效益和可控性的方法[6]。研究发现，在事实性方面，核采样（又称顶点采样）不如贪婪解码，因为top-p采样为提高多样性而引入的随机性可能会无意中导致幻觉[6]。因此，**事实核采样**等新的解码算法被提出，旨在在多样性和事实性之间取得更有效的平衡[6]。

**链式验证（Chain of Verification）**方法通过一系列步骤来验证LLM生成的答案，从而减少幻觉现象[3]。这种Agentic方法基于代理的工作流程，能够有效识别和修正生成内容中的错误。

## 训练数据优化

**数据筛选和清理**在实际应用中证明非常有效[5]。使用人工专家注释的指令调整数据集，或者利用LLMs作为评估器来自动选择高质量的指令调整数据[5]。实验结果表明，使用经过筛选的指令数据进行微调的LLMs在幻觉相关的基准测试中具有更高的真实性和事实性水平[5]。

**诚实导向的监督微调（SFT）**通过在SFT数据中引入诚实样本（如”对不起，我不知道”的拒答回应），使模型学会拒绝回答超出其知识边界的问题[6]。

## 多模型协作方法

**多代理交互**通过让多个LLM独立提出并协作辩论他们的回答以达成一致，可以减轻单个LLM产生幻觉信息的问题[5]。例如，一个LLM作为被检查者提出主张，另一个LLM作为检查者就这些主张提出问题并检查其真实性，能以相对较低的成本有效减少幻觉[5]。

## 提示工程技术

**策略性提示设计**在实际应用中简单有效[5]。研究发现，在”系统提示”中明确告诉LLMs不要传播虚假信息是现在流行的做法[5]。**链式思考提示**也被广泛使用来缓解幻觉，尽管需要注意可能带来的新挑战[5]。

## 实施建议

在实际项目中应用这些方法时，需要考虑以下关键因素[4]：

– **选择合适的模型**：基于项目需求评估不同模型的性能
– **数据源准备**：选择和维护高质量的知识库或数据源
– **系统集成**：开发API接口并进行模型微调
– **性能监控**：持续跟踪准确性、响应时间和用户满意度
– **用户体验设计**：创建直观的用户界面和清晰的反馈机制

总体而言，**RAG技术结合解码策略优化**在实际应用中表现最为突出，因为它们既能提供即时的准确性改善，又具有良好的可部署性和成本效益。对于不同的应用场景，建议采用多种方法的组合策略以获得最佳效果。

Sources
[1] 探索AI大模型（LLM）减少幻觉的三种策略原创 – CSDN博客 https://blog.csdn.net/m0_59164304/article/details/140779945
[2] 十大策略减轻大模型整体幻觉 – Learn Prompt https://www.learnprompt.pro/zh-Hans/docs/prompt-engineering/reducing-gpt-hallucinations/
[3] Agentic方法减少LLM幻觉：深度解析与实践（文末含代码）原创 … https://blog.csdn.net/llm_way/article/details/144844564
[4] 大语言模型LLM幻觉的解决方法：检索增强生成RAG – 英智未来- 博客园 https://www.cnblogs.com/ai2nv/p/17958827
[5] 大型语言模型的幻觉研究｜减轻及避免大模型LLM幻觉（二） – 腾讯云 https://cloud.tencent.com/developer/article/2437544
[6] 大模型幻觉的起因、评估以及减轻策略总结 – 智源社区 https://hub.baai.ac.cn/view/30539
[7] 解析大语言模型LLM的幻觉问题：消除错觉、提高认知 https://qianfan.cloud.baidu.com/qianfandev/topic/268383
[8] 如何通过“链式验证”降低大语言模型的“幻觉” [译] – 宝玉的分享 https://baoyu.io/translations/ai-paper/chain-of-verification-reduces-hallucination-in-large-language-models