← 博客
繁體中文 English 简体中文
Levi · LinkedIn

你份文件一半中文一半英文——大多數AI系統就係喺呢度跌倒

廣東話查詢、繁體中文文件、英文條款——點解benchmark準確率喺香港場景唔適用

RAG 廣東話AI 中英文件 香港 多語言 語義檢索

「個AI英文答得好好,但我哋啲文件係中英夾雜,一問廣東話就答唔到重點。」

呢個係香港企業部署AI之後最常見嘅投訴之一。供應商demo嗰陣用英文示範,效果好好。落地之後,員工用廣東話問、文件係繁體中文加英文條款——檢索質量即刻下降。

呢篇文解釋點解會咁、邊啲位係技術上可以解決、邊啲位係供應商唔會主動同你講嘅限制。

問題嘅根源:embedding唔係翻譯

RAG系統嘅核心係embedding——將文字轉做向量,再用向量相似度搵返相關內容。問題在於:主流embedding模型以英文數據為主訓練。

實際後果係:同一個意思,用英文寫同用中文寫,喺向量空間入面距離可以好遠。你用廣東話問「呢份保單危疾賠償係幾多」,但文件入面寫嘅係「Critical Illness Benefit shall be payable...」——系統檢索唔到,唔係因為佢蠢,係因為兩段嘢喺佢眼中根本唔似。

香港文件仲有一層複雜性:同一份合約入面,定義係英文、附表係中文、批註係中英夾雜。呢個唔係邊緣情況,係香港商業文件嘅常態。

口語廣東話係另一層

書面中文同口語廣東話喺embedding模型眼中亦係兩回事。「呢份嘢幾時到期」同「本文件之屆滿日期」意思一樣,向量距離唔細。

如果你嘅員工會用口語查詢——實際上一定會——而你嘅知識庫係書面語,檢索gap就存在。

技術上點解決

呢個問題有工程答案,但需要喺架構層處理,唔係事後補救:

跨語言embedding策略。喺embedding階段就處理語言差異——例如將內容連同翻譯一齊嵌入,令中文查詢同英文內容喺向量空間入面真正接近。呢個係設計決定,系統起好之後先發現問題,重做成本係幾倍。

用真實查詢測試。上線前用你員工實際會問嘅問題測——廣東話口語、中英夾雜、業務術語。唔係用供應商準備好嘅英文demo questions。

檢索質量量度。中文查詢同英文查詢嘅檢索準確率要分開量。一個只報整體數字嘅評估,可以完全遮蓋住中文表現差呢個事實。

買家可以點驗證

唔需要技術背景,三個動作就可以喺簽約前暴露問題:

一、demo嗰陣堅持用廣東話問。唔好俾供應商用英文示範完就算。

二、攞一份你哋真實嘅中英夾雜文件俾佢哋現場試。唔係佢哋準備好嘅樣本。

三、問一句:「你哋點處理中文查詢搵英文內容呢個情況?」答到具體機制嘅係做過。答「模型本身支援多語言」嘅,未真正處理過呢個問題——模型「支援」中文同檢索「準確」係兩件事。

點解呢樣嘢喺香港特別重要

對歐美企業,多語言係加分項。對香港企業,中英混合係文件嘅基本形態——保險條款、法律合約、政府通函、內部報告全部如此。

一個喺英文文件上準確率90%、中文查詢上跌到60%嘅系統,喺香港唔係「大致可用」,係核心場景失效。而呢個落差,喺英文demo入面係完全睇唔到嘅。

我為香港企業構建生產級RAG系統,跨語言檢索係架構設計嘅一部分,唔係事後修補。已生產部署系統包括香港危疾保險RAG比較平台(中英混合保單文件)及具備雙語embedding設計嘅Claude對話平台HKSoka。

如果你嘅文件係中英混合,想喺部署前理解實際檢索質量,歡迎洽談。

聯絡:smartai.hk+ai.consulting@proton.me
LinkedIn:linkedin.com/in/levi-innovation

聯絡洽談 →