Published

- 5 min read

[AI]LLM本质上是搜索引擎吗?

Thumbnail

LLM的本质绝对不是搜索工具

可能LLM和搜索工具有部分任务上类似的表现,但从本质上这两者完全不是一个实现。

搜索引擎,或者类似的东西,干的是啥?计算两个文本之间的距离。说白了就是拿向量算相似度,看看哪段文字跟你问的最像。本质是矩阵里的矢量距离运算

LLM 呢?给它一段话,它算的是下一个最可能蹦出来的字是啥。本质是概率计算。它压根就没『搜索』这功能。它只是根据喂给它的海量数据,算出最可能的文字组合吐出来。

你可以把它看成一个巨复杂的函数:输入 a 得到 b,再输入 ab 得到 c,一路滚下去… 核心是计算文字之间的关联度,预测下一个字。训练就是让它掌握文字的前后关系规律。

有人说 LLM 是个“通用文本模式匹配器”。这比“搜索”强点,承认它能学模式(pattern),但还是不信它有“真”推理能力。但这不够。模型不只是学模式,它还学概念。看看 Anthropic 的研究,模型内部形成了对“代码错误”、“性别偏见”、“保密”这些抽象东西的理解。这可不是简单的文本匹配。

Inner Conflict Feature Visualization 大模型内部学习的抽象概念示例(来源:Anthropic)

Abstract Feature Examples 更多抽象特征例子:代码错误、性别偏见意识、保密/隐秘性(来源:Anthropic)

现在,像 O1、R1 这种推理模型出来了,在数学、推理上表现很猛。一定程度上说明它们不只是在鹦鹉学舌。它们通过强化学习,学会了思考、探索、反思(改错)、发散性思考(联想)。它们甚至能判断自己答得离谱不离谱,尤其是在数学这种有标准答案的问题上。

关于它们是不是“真”推理,还在吵。但证据越来越多了。别急,结果可能快了,也可能没那么快。但模型能力的边界显然已远超简单的模式匹配或信息检索。

所以,再说一遍:LLM 的本质绝对不是搜索工具

当然,你能把它当搜索用,问个事实、找点信息。但如果你只把它当搜索,那就太小看它了,也用歪了。别这么干

为什么不该把 LLM 当搜索工具用?

主要原因在于 LLM 存在“幻觉”(Hallucination)。它们会生成看似合理但实际上完全错误的信息,并且意识不到自己的错误,反而会一本正经地输出。

看看主流模型的幻觉率数据,值得注意的是,Deepseek-r1的幻觉率达到了惊人的14.3%:

模型 (Model)幻觉率 (Hallucination Rate)
Google Gemini-2.0-Flash-0010.7 %
Google Gemini-2.0-Pro-Exp0.8 %
o3-mini-high-reasoning0.8 %
Google Gemini-2.5-Pro-Exp-03251.1 %
Google Gemini-2.0-Flash-Lite-Preview1.2 %
GPT-4.5-Preview1.2 %
Google Gemini-2.0-Flash-Exp1.3 %
o1-mini1.4 %
GPT-4o1.5 %
GPT-4o-mini1.7 %
GPT-4-Turbo1.7 %
Google Gemini-2.0-Flash-Thinking-Exp1.8 %
GPT-41.8 %
GPT-3.5-Turbo1.9 %
O1-Pro2.4 %
o12.4 %
DeepSeek-V2.52.4 %
Qwen2.5-7B-Instruct2.8 %
Qwen2.5-Max2.9 %
Qwen2.5-32B-Instruct3.0 %
o1-preview3.3 %
Google Gemini-1.5-Flash-0023.4 %
DeepSeek-V33.9 %
Qwen2.5-14B-Instruct4.2 %
Qwen2.5-72B-Instruct4.3 %
Anthropic Claude-3.7-Sonnet4.4 %
Anthropic Claude-3.7-Sonnet-Think4.5 %
Anthropic Claude-3-5-sonnet4.6 %
Anthropic Claude-3-5-haiku4.9 %
--- Threshold ---5.0 %
Google Gemini-1.5-Pro-0026.6 %
Google Gemini-1.5-Flash6.6 %
Qwen2.5-3B-Instruct7.0 %
Google Gemini-Pro7.7 %
DeepSeek-V3-03248.0 %
Google Gemini-1.5-Pro9.1 %
--- Threshold ---10.0 %
Anthropic Claude-3-opus10.1 %
DeepSeek-R114.3 %
Qwen2.5-1.5B-Instruct15.8 %
Qwen-QwQ-32B-Preview16.1 %
Anthropic Claude-3-sonnet16.3 %
Anthropic Claude-217.4 %

即使是顶尖模型,也存在产生幻觉的可能。当你使用搜索引擎时,可以通过查看来源、点赞数、评论等方式大致判断信息的可信度。但 LLM 输出错误信息时,你很难从其自信的语气中察觉。

因此:

  • 对于知识稀疏领域(小众知识),依赖 LLM 获取信息风险很高,最好通过搜索引擎进行交叉验证
  • 对于极其重要的信息,例如医药、疾病相关内容,绝对不能只听 AI 的,必须咨询专业医生或权威来源。
评论
  • 按正序
  • 按倒序
  • 按热度
Powered by Waline v3.5.7