LLM答错时：你怎么知道？谁来负责？

生产AI系统的问责机制与验证设计——香港受监管行业必读

2026年，香港大多数企业面对的问题已不再是LLM能否处理文件、回答查询或生成报告。这已被验证。较少被问到的问题是：当系统生成错误答案时，你怎么知道，而谁需要负责？

AI幻觉 LLM可靠性企业AI RAG AI合规

幻觉是统计特性，不是bug

LLM是概率系统。回应中每个token的选择，是基于前文统计可能性。模型在生成输出前，并不对照外部事实基础验证信息。这意味着听起来自信、但事实上错误的答案——即幻觉——是这项技术的固有特性，不是一个会被修补的缺陷。

对于通用用途，偶尔的错误后果轻微。对于香港的金融、保险及法律文件处理，一个捏造的保单条款或错误的合同细节是法律责任。在受监管背景下，「AI是这样说的」不是可辩护的解释。

大多数AI解决方案的演示，是展示系统正确回答问题。很少的演示会展示系统在无法正确回答时的行为。

生产级系统需要围绕生成层进行工程设计，而不只是在生成层内部。

检索接地意味着每个答案都是从你的实际文件中得出，而非来自模型的训练记忆。每个回应都可以追溯到来源段落——是可验证的，而不是断言的。

置信边界意味着系统识别其检索的限制。当找不到相关内容时，正确的行为是返回「未找到」——而不是从通用知识中生成一个听起来合理的答案。

评估（Evals）意味着在部署前针对真实业务问题测试系统以量化准确率，并在部署后持续监控输出质量。没有这一层，质量是主观的。

审计日志意味着每次查询、每个检索段落及每个生成回应都有记录。出错时，有可追溯的记录。没有日志，调查从零开始。

香港的金融、保险及法律行业处理的文件，其输出需要是可辩护的。监管机构不会接受「AI是这样回答的」作为错误客户面向回应的解释。

今日部署的每个客户面向AI系统，都是未来的问责对象。在没有验证层的情况下构建，初期成本较低，但事故发生时成本显著更高。将这些层面后期加入生产系统，成本是初期就建入的倍数。

以下问题适用于现成AI工具及定制构建系统。不需要技术背景就可以问，而回应质量本身就是信息。

一：答案可以追溯到来源文件吗？如果不可以，每个回应都是无法验证的断言。

二：在什么情况下系统会说它不知道？如果答案是从不，幻觉风险是未处理的。

三：准确率是如何量度的？如果没有定义的评估方式，质量是未知的。

四：错误日志储存在哪里？如果没有日志，出错时就没有任何东西可以调查。

没有任何生产AI系统的错误率是零。诚实的工程师会清楚告诉你：系统在什么条件下是可靠的、当这些条件不满足时系统如何退化，以及你将如何知道出了问题。

承诺完美准确率的供应商是在描述销售立场。描述失效模式及监控设计的供应商是在描述工程立场。

Levi是驻香港的独立AI工程师，为香港及大湾区企业构建生产级LLM及RAG系统，检索接地、置信边界及审计日志是标准组件。

微信：freedom_from_gold　或邮件：support@hksoka.com