你的文件一半中文一半英文——大多数AI系统就在这里跌倒

粤语查询、繁体中文文件、英文条款——为什么基准测试准确率在香港场景下并不适用

RAG 粤语AI 中英文件香港多语言语义检索

「AI的英文回答很好，但我们的文件是中英混合的，一用粤语问就抓不到重点。」

这是香港企业部署AI后最常见的投诉之一。供应商演示时用英文示范，效果很好。落地后，员工用粤语提问、文件是繁体中文加英文条款——检索质量立刻下降。

本文解释为什么会这样、哪些地方技术上可以解决、哪些是供应商不会主动告诉你的限制。

问题的根源：embedding不是翻译

RAG系统的核心是embedding——将文字转换为向量，再用向量相似度找回相关内容。问题在于：主流embedding模型以英文数据为主训练。

实际后果是：同一个意思，用英文写和用中文写，在向量空间中的距离可能很远。你用粤语问「这份保单危疾赔偿是多少」，但文件里写的是"Critical Illness Benefit shall be payable..."——系统检索不到，不是因为它不够智能，而是因为从它的角度看，这两段文字根本不相似。

香港文件还有一层复杂性：同一份合同里，定义是英文、附表是中文、批注是中英混合。这不是边缘情况，而是香港商业文件的常态。

书面中文和口语粤语在embedding模型眼中也是两回事。「这份东西什么时候到期」和「本文件之届满日期」意思一样，但向量距离并不小。

如果你的员工会用口语查询——实际上一定会——而你的知识库是书面语，检索缺口就存在。

这个问题有工程解决方案，但需要在架构层处理，而不是事后补救：

跨语言embedding策略。在embedding阶段就处理语言差异——例如将内容连同翻译一起嵌入，让中文查询和英文内容在向量空间中真正接近。这是设计决策，系统建好后才发现问题，返工成本是原来的数倍。

用真实查询测试。上线前用你的员工实际会问的问题来测试——口语粤语、中英混合、业务术语。而不是用供应商准备好的英文演示问题。

分开衡量检索质量。中文查询和英文查询的检索准确率需要分开统计。只报整体数字的评估，可以完全掩盖中文表现差的事实。

不需要技术背景，三个动作就可以在签约前暴露问题：

一、演示时坚持用粤语提问。不要让供应商用英文示范完就算。

二、拿一份你们真实的中英混合文件让他们现场测试。不是他们准备好的样本。

三、问一句：「你们怎么处理粤语查询搜索英文内容的情况？」能回答出具体机制的是做过的。回答「模型本身支持多语言」的，没有真正处理过这个问题——模型「支持」中文与检索「准确」是两件事。

对欧美企业而言，多语言是加分项。对香港企业而言，中英混合是文件的基本形态——保险条款、法律合同、政府通函、内部报告全部如此。

一个在英文文件上准确率90%、在中文查询上跌至60%的系统，在香港不是「大致可用」，而是核心场景失效。而这个落差，在英文演示中是完全看不出来的。

我为香港企业构建生产级RAG系统，跨语言检索是架构设计的一部分，而不是事后修补。已生产部署的系统包括香港危疾保险RAG比较平台（中英混合保单文件）及具备双语embedding设计的Claude对话平台HKSoka。

如果你的文件是中英混合，希望在部署前了解实际检索质量，欢迎洽谈。

微信：freedom_from_gold　或邮件：support@hksoka.com