LLM答錯時：你點知？誰負責？

生產AI系統嘅問責機制與驗證設計——香港受監管行業必讀

2026年，香港大多數企業面對嘅問題已唔再係LLM能否處理文件、回答查詢或生成報告。呢個已被驗證。較少被問到嘅問題係：當系統生成錯誤答案時，你點知，而誰需要負責？

AI幻覺 LLM可靠性企業AI RAG AI合規

幻覺係統計特性，唔係bug

LLM係概率系統。回應中每個token嘅選擇，係基於前文統計可能性。模型在生成輸出前，並不對照外部事實基礎驗證資訊。呢意味著聽起來自信、但事實上錯誤嘅答案——即幻覺——係呢項技術嘅固有特性，唔係一個會被修補嘅缺陷。

對於通用用途，偶爾嘅錯誤後果輕微。對於香港嘅金融、保險及法律文件處理，一個捏造嘅保單條款或錯誤嘅合約細節係法律責任。在受監管背景下，「AI係咁講嘅」唔係可辯護嘅解釋。

大多數AI解決方案嘅演示，係展示系統正確回答問題。很少嘅演示會展示系統在無法正確回答時嘅行為。

生產級系統需要圍繞生成層進行工程設計，而唔只係在生成層內部。

檢索接地意味著每個答案都係從你嘅實際文件中得出，而非來自模型嘅訓練記憶。每個回應都可以追溯到來源段落——係可驗證嘅，而唔係斷言嘅。

置信邊界意味著系統識別其檢索嘅限制。當找唔到相關內容時，正確嘅行為係返回「未找到」——而唔係從通用知識中生成一個聽起來合理嘅答案。

評估（Evals）意味著在部署前針對真實業務問題測試系統以量化準確率，並在部署後持續監控輸出質量。沒有呢一層，質量係主觀嘅。

審計日誌意味著每次查詢、每個檢索段落及每個生成回應都有記錄。出錯時，有可追溯嘅記錄。沒有日誌，調查從零開始。

香港嘅金融、保險及法律行業處理嘅文件，其輸出需要係可辯護嘅。監管機構唔會接受「AI係咁答嘅」作為錯誤客戶面向回應嘅解釋。

今日部署嘅每個客戶面向AI系統，都係未來嘅問責對象。在沒有驗證層嘅情況下建設，初期成本較低，但事故發生時成本顯著更高。將呢些層面後期加入生產系統，成本係初期就建入嘅倍數。

以下問題適用於現成AI工具及定制建設系統。唔需要技術背景就可以問，而回應質量本身就係資訊。

一：答案可以追溯到來源文件嗎？如果唔可以，每個回應都係無法驗證嘅斷言。

二：在咩情況下系統會話佢唔知道？如果答案係從不，幻覺風險係未處理嘅。

三：準確率係點量度嘅？如果沒有定義嘅評估方式，質量係未知嘅。

四：錯誤日誌儲存喺哪裡？如果沒有日誌，出錯時就沒有任何東西可以調查。

沒有任何生產AI系統嘅錯誤率係零。誠實嘅工程師會清楚告訴你：系統在咩條件下係可靠嘅、當呢些條件唔滿足時系統如何退化，以及你將如何知道出咗問題。

承諾完美準確率嘅供應商係在描述銷售立場。描述失效模式及監控設計嘅供應商係在描述工程立場。

Levi係駐香港嘅獨立AI工程師，為香港及大灣區企業構建生產級LLM及RAG系統，檢索接地、置信邊界及審計日誌係標準組件。

或以電郵聯絡：support@hksoka.com