← 博客
繁體中文 English 简体中文
Levi · LinkedIn

你的文件一半中文一半英文——大多数AI系统就在这里跌倒

粤语查询、繁体中文文件、英文条款——为什么基准测试准确率在香港场景下并不适用

RAG 粤语AI 中英文件 香港 多语言 语义检索

「AI的英文回答很好,但我们的文件是中英混合的,一用粤语问就抓不到重点。」

这是香港企业部署AI后最常见的投诉之一。供应商演示时用英文示范,效果很好。落地后,员工用粤语提问、文件是繁体中文加英文条款——检索质量立刻下降。

本文解释为什么会这样、哪些地方技术上可以解决、哪些是供应商不会主动告诉你的限制。

问题的根源:embedding不是翻译

RAG系统的核心是embedding——将文字转换为向量,再用向量相似度找回相关内容。问题在于:主流embedding模型以英文数据为主训练。

实际后果是:同一个意思,用英文写和用中文写,在向量空间中的距离可能很远。你用粤语问「这份保单危疾赔偿是多少」,但文件里写的是"Critical Illness Benefit shall be payable..."——系统检索不到,不是因为它不够智能,而是因为从它的角度看,这两段文字根本不相似。

香港文件还有一层复杂性:同一份合同里,定义是英文、附表是中文、批注是中英混合。这不是边缘情况,而是香港商业文件的常态。

口语粤语是另一层

书面中文和口语粤语在embedding模型眼中也是两回事。「这份东西什么时候到期」和「本文件之届满日期」意思一样,但向量距离并不小。

如果你的员工会用口语查询——实际上一定会——而你的知识库是书面语,检索缺口就存在。

技术上怎么解决

这个问题有工程解决方案,但需要在架构层处理,而不是事后补救:

跨语言embedding策略。在embedding阶段就处理语言差异——例如将内容连同翻译一起嵌入,让中文查询和英文内容在向量空间中真正接近。这是设计决策,系统建好后才发现问题,返工成本是原来的数倍。

用真实查询测试。上线前用你的员工实际会问的问题来测试——口语粤语、中英混合、业务术语。而不是用供应商准备好的英文演示问题。

分开衡量检索质量。中文查询和英文查询的检索准确率需要分开统计。只报整体数字的评估,可以完全掩盖中文表现差的事实。

买家如何在签约前验证

不需要技术背景,三个动作就可以在签约前暴露问题:

一、演示时坚持用粤语提问。不要让供应商用英文示范完就算。

二、拿一份你们真实的中英混合文件让他们现场测试。不是他们准备好的样本。

三、问一句:「你们怎么处理粤语查询搜索英文内容的情况?」能回答出具体机制的是做过的。回答「模型本身支持多语言」的,没有真正处理过这个问题——模型「支持」中文与检索「准确」是两件事。

为什么这在香港特别重要

对欧美企业而言,多语言是加分项。对香港企业而言,中英混合是文件的基本形态——保险条款、法律合同、政府通函、内部报告全部如此。

一个在英文文件上准确率90%、在中文查询上跌至60%的系统,在香港不是「大致可用」,而是核心场景失效。而这个落差,在英文演示中是完全看不出来的。

我为香港企业构建生产级RAG系统,跨语言检索是架构设计的一部分,而不是事后修补。已生产部署的系统包括香港危疾保险RAG比较平台(中英混合保单文件)及具备双语embedding设计的Claude对话平台HKSoka。

如果你的文件是中英混合,希望在部署前了解实际检索质量,欢迎洽谈。

联系:smartai.hk+ai.consulting@proton.me
LinkedIn:linkedin.com/in/levi-innovation

联系洽谈 →