← 博客
繁體中文 English 简体中文
Levi · LinkedIn

LLM答错时:你怎么知道?谁来负责?

生产AI系统的问责机制与验证设计——香港受监管行业必读

2026年,香港大多数企业面对的问题已不再是LLM能否处理文件、回答查询或生成报告。这已被验证。较少被问到的问题是:当系统生成错误答案时,你怎么知道,而谁需要负责?

AI幻觉 LLM可靠性 企业AI RAG AI合规

幻觉是统计特性,不是bug

LLM是概率系统。回应中每个token的选择,是基于前文统计可能性。模型在生成输出前,并不对照外部事实基础验证信息。这意味着听起来自信、但事实上错误的答案——即幻觉——是这项技术的固有特性,不是一个会被修补的缺陷。

对于通用用途,偶尔的错误后果轻微。对于香港的金融、保险及法律文件处理,一个捏造的保单条款或错误的合同细节是法律责任。在受监管背景下,「AI是这样说的」不是可辩护的解释。

Demo与生产系统的差距

大多数AI解决方案的演示,是展示系统正确回答问题。很少的演示会展示系统在无法正确回答时的行为。

生产级系统需要围绕生成层进行工程设计,而不只是在生成层内部。

检索接地意味着每个答案都是从你的实际文件中得出,而非来自模型的训练记忆。每个回应都可以追溯到来源段落——是可验证的,而不是断言的。

置信边界意味着系统识别其检索的限制。当找不到相关内容时,正确的行为是返回「未找到」——而不是从通用知识中生成一个听起来合理的答案。

评估(Evals)意味着在部署前针对真实业务问题测试系统以量化准确率,并在部署后持续监控输出质量。没有这一层,质量是主观的。

审计日志意味着每次查询、每个检索段落及每个生成回应都有记录。出错时,有可追溯的记录。没有日志,调查从零开始。

这是当下的合规问题,不是未来的

香港的金融、保险及法律行业处理的文件,其输出需要是可辩护的。监管机构不会接受「AI是这样回答的」作为错误客户面向回应的解释。

今日部署的每个客户面向AI系统,都是未来的问责对象。在没有验证层的情况下构建,初期成本较低,但事故发生时成本显著更高。将这些层面后期加入生产系统,成本是初期就建入的倍数。

问任何AI供应商的四个问题

以下问题适用于现成AI工具及定制构建系统。不需要技术背景就可以问,而回应质量本身就是信息。

一:答案可以追溯到来源文件吗?如果不可以,每个回应都是无法验证的断言。

二:在什么情况下系统会说它不知道?如果答案是从不,幻觉风险是未处理的。

三:准确率是如何量度的?如果没有定义的评估方式,质量是未知的。

四:错误日志储存在哪里?如果没有日志,出错时就没有任何东西可以调查。

对AI系统的诚实预期

没有任何生产AI系统的错误率是零。诚实的工程师会清楚告诉你:系统在什么条件下是可靠的、当这些条件不满足时系统如何退化,以及你将如何知道出了问题。

承诺完美准确率的供应商是在描述销售立场。描述失效模式及监控设计的供应商是在描述工程立场。

Levi是驻香港的独立AI工程师,为香港及大湾区企业构建生产级LLM及RAG系统,检索接地、置信边界及审计日志是标准组件。

联系洽谈 →