← 博客
繁體中文 English 简体中文
Levi · LinkedIn

LLM答錯時:你點知?誰負責?

生產AI系統嘅問責機制與驗證設計——香港受監管行業必讀

2026年,香港大多數企業面對嘅問題已唔再係LLM能否處理文件、回答查詢或生成報告。呢個已被驗證。較少被問到嘅問題係:當系統生成錯誤答案時,你點知,而誰需要負責?

AI幻覺 LLM可靠性 企業AI RAG AI合規

幻覺係統計特性,唔係bug

LLM係概率系統。回應中每個token嘅選擇,係基於前文統計可能性。模型在生成輸出前,並不對照外部事實基礎驗證資訊。呢意味著聽起來自信、但事實上錯誤嘅答案——即幻覺——係呢項技術嘅固有特性,唔係一個會被修補嘅缺陷。

對於通用用途,偶爾嘅錯誤後果輕微。對於香港嘅金融、保險及法律文件處理,一個捏造嘅保單條款或錯誤嘅合約細節係法律責任。在受監管背景下,「AI係咁講嘅」唔係可辯護嘅解釋。

Demo同生產系統嘅差距

大多數AI解決方案嘅演示,係展示系統正確回答問題。很少嘅演示會展示系統在無法正確回答時嘅行為。

生產級系統需要圍繞生成層進行工程設計,而唔只係在生成層內部。

檢索接地意味著每個答案都係從你嘅實際文件中得出,而非來自模型嘅訓練記憶。每個回應都可以追溯到來源段落——係可驗證嘅,而唔係斷言嘅。

置信邊界意味著系統識別其檢索嘅限制。當找唔到相關內容時,正確嘅行為係返回「未找到」——而唔係從通用知識中生成一個聽起來合理嘅答案。

評估(Evals)意味著在部署前針對真實業務問題測試系統以量化準確率,並在部署後持續監控輸出質量。沒有呢一層,質量係主觀嘅。

審計日誌意味著每次查詢、每個檢索段落及每個生成回應都有記錄。出錯時,有可追溯嘅記錄。沒有日誌,調查從零開始。

呢係當下嘅合規問題,唔係未來嘅

香港嘅金融、保險及法律行業處理嘅文件,其輸出需要係可辯護嘅。監管機構唔會接受「AI係咁答嘅」作為錯誤客戶面向回應嘅解釋。

今日部署嘅每個客戶面向AI系統,都係未來嘅問責對象。在沒有驗證層嘅情況下建設,初期成本較低,但事故發生時成本顯著更高。將呢些層面後期加入生產系統,成本係初期就建入嘅倍數。

問任何AI供應商嘅四個問題

以下問題適用於現成AI工具及定制建設系統。唔需要技術背景就可以問,而回應質量本身就係資訊。

一:答案可以追溯到來源文件嗎?如果唔可以,每個回應都係無法驗證嘅斷言。

二:在咩情況下系統會話佢唔知道?如果答案係從不,幻覺風險係未處理嘅。

三:準確率係點量度嘅?如果沒有定義嘅評估方式,質量係未知嘅。

四:錯誤日誌儲存喺哪裡?如果沒有日誌,出錯時就沒有任何東西可以調查。

對AI系統嘅誠實預期

沒有任何生產AI系統嘅錯誤率係零。誠實嘅工程師會清楚告訴你:系統在咩條件下係可靠嘅、當呢些條件唔滿足時系統如何退化,以及你將如何知道出咗問題。

承諾完美準確率嘅供應商係在描述銷售立場。描述失效模式及監控設計嘅供應商係在描述工程立場。

Levi係駐香港嘅獨立AI工程師,為香港及大灣區企業構建生產級LLM及RAG系統,檢索接地、置信邊界及審計日誌係標準組件。

聯絡洽談 →