你份文件一半中文一半英文——大多數AI系統就係喺呢度跌倒

廣東話查詢、繁體中文文件、英文條款——點解benchmark準確率喺香港場景唔適用

RAG 廣東話AI 中英文件香港多語言語義檢索

「個AI英文答得好好，但我哋啲文件係中英夾雜，一問廣東話就答唔到重點。」

呢個係香港企業部署AI之後最常見嘅投訴之一。供應商demo嗰陣用英文示範，效果好好。落地之後，員工用廣東話問、文件係繁體中文加英文條款——檢索質量即刻下降。

呢篇文解釋點解會咁、邊啲位係技術上可以解決、邊啲位係供應商唔會主動同你講嘅限制。

問題嘅根源：embedding唔係翻譯

RAG系統嘅核心係embedding——將文字轉做向量，再用向量相似度搵返相關內容。問題在於：主流embedding模型以英文數據為主訓練。

實際後果係：同一個意思，用英文寫同用中文寫，喺向量空間入面距離可以好遠。你用廣東話問「呢份保單危疾賠償係幾多」，但文件入面寫嘅係「Critical Illness Benefit shall be payable...」——系統檢索唔到，唔係因為佢蠢，係因為兩段嘢喺佢眼中根本唔似。

香港文件仲有一層複雜性：同一份合約入面，定義係英文、附表係中文、批註係中英夾雜。呢個唔係邊緣情況，係香港商業文件嘅常態。

書面中文同口語廣東話喺embedding模型眼中亦係兩回事。「呢份嘢幾時到期」同「本文件之屆滿日期」意思一樣，向量距離唔細。

如果你嘅員工會用口語查詢——實際上一定會——而你嘅知識庫係書面語，檢索gap就存在。

呢個問題有工程答案，但需要喺架構層處理，唔係事後補救：

跨語言embedding策略。喺embedding階段就處理語言差異——例如將內容連同翻譯一齊嵌入，令中文查詢同英文內容喺向量空間入面真正接近。呢個係設計決定，系統起好之後先發現問題，重做成本係幾倍。

用真實查詢測試。上線前用你員工實際會問嘅問題測——廣東話口語、中英夾雜、業務術語。唔係用供應商準備好嘅英文demo questions。

檢索質量量度。中文查詢同英文查詢嘅檢索準確率要分開量。一個只報整體數字嘅評估，可以完全遮蓋住中文表現差呢個事實。

唔需要技術背景，三個動作就可以喺簽約前暴露問題：

一、demo嗰陣堅持用廣東話問。唔好俾供應商用英文示範完就算。

二、攞一份你哋真實嘅中英夾雜文件俾佢哋現場試。唔係佢哋準備好嘅樣本。

三、問一句：「你哋點處理中文查詢搵英文內容呢個情況？」答到具體機制嘅係做過。答「模型本身支援多語言」嘅，未真正處理過呢個問題——模型「支援」中文同檢索「準確」係兩件事。

對歐美企業，多語言係加分項。對香港企業，中英混合係文件嘅基本形態——保險條款、法律合約、政府通函、內部報告全部如此。

一個喺英文文件上準確率90%、中文查詢上跌到60%嘅系統，喺香港唔係「大致可用」，係核心場景失效。而呢個落差，喺英文demo入面係完全睇唔到嘅。

我為香港企業構建生產級RAG系統，跨語言檢索係架構設計嘅一部分，唔係事後修補。已生產部署系統包括香港危疾保險RAG比較平台（中英混合保單文件）及具備雙語embedding設計嘅Claude對話平台HKSoka。

如果你嘅文件係中英混合，想喺部署前理解實際檢索質量，歡迎洽談。

或以電郵聯絡：support@hksoka.com