← 博客
繁體中文 English 简体中文
Levi · LinkedIn

那些文件是否全部上传到了美国?

香港企业用AI处理机密文件前需了解的数据流向

AI隐私 数据流向 企业合规 香港 API安全 受监管行业

与香港企业谈AI项目,被问得最多的不是价格,而是这句话:"我们的合同、保单、客户资料,是不是全部发送给了OpenAI?"

这个问题完全合理。但市场上的答案通常走向两个极端:供应商说"没问题的",或者企业内部直接禁止所有AI工具。两种反应都建立在不清楚数据实际去向的基础上。

本文把这件事讲清楚。

员工使用ChatGPT与公司系统调用API,是两回事

最大的误解是把这两件事混为一谈。

员工自己打开免费版ChatGPT,把公司文件粘贴进去——这些对话内容默认可以被用于模型训练。你的合同条款,理论上会成为模型的一部分。这是很多企业禁止AI的原因,而这个担忧是正确的。

但企业系统通过API调用模型——Claude、GPT、Gemini的商业API——是另一套合同框架。主要供应商的API条款明确写明:API输入输出不会用于模型训练。Anthropic和OpenAI的商业条款都有明确承诺。

换句话说:你公司目前最大的数据泄露风险,不是未来的AI系统,而是今天员工已经在使用的免费ChatGPT。一个设计正确的内部系统,反而是把这个风险收回到可控范围内。

「不用于训练」不等于「什么都不保留」

诚实地说:API供应商通常会短期保留请求日志(通常30天内)用于滥用监控,之后删除。部分供应商提供零保留选项,但需要企业级协议。

对于大多数香港中小企业的文件处理需求,标准API条款已经足够。但如果你的行业有明确的数据驻留要求——例如部分金融机构的内部政策——这需要在项目范围讨论一开始就说清楚,因为这会直接影响架构选择和成本。

任何工程师如果告诉你"数据完全不会离开你的公司",但同时在使用云端LLM API,他说的不是实话。数据会通过加密通道发送到模型供应商处理——这是技术事实。问题不是"会不会发送出去",而是"发送后的合同保障和保留政策是什么"。

架构能做的事:减少需要发送出去的内容

数据流向不只是条款问题,而是设计问题。

一个考虑过隐私的系统,可以在发送前做脱敏处理——客户姓名、身份证号码、账户号码在本地替换成代号,模型处理完再还原。模型看到的是"客户A的保单",而不是真实姓名。

检索架构本身也有隐私含义:RAG系统每次只发送与当前问题相关的文件片段,而不是整个文件库。你十年的合同档案存储在你自己的数据库里,模型每次只接触回答当前问题所需的几段文字。

这些不是额外功能,而是架构决策。在报价阶段就已经确定,事后补充的成本要高出数倍。

「本地部署」的迷思

有企业会问:能不能完全本地运行,不使用任何云端API?

技术上可以——开源模型可以部署在自己的服务器上。但实际情况需要说清楚:达到商业可用质量的模型所需的GPU硬件,前期投资以数十万港元计,还不算维护成本。而开源模型在粤语和中英混合文件上的表现,与顶级API模型相比有明显差距。

对绝大多数中小企业,这个组合不成立:付出十倍成本,获得七成质量。本地部署真正的适用场景是大型机构的特定合规要求——而那些机构需要的是内部基础设施团队,而不是项目制工程师。

签约前值得问供应商的四个问题

一、系统使用哪家模型供应商?API条款中关于训练用途和数据保留的条文是什么?答不上来 = 他没有读过自己使用的产品的条款。

二、我的文件库存储在哪里?哪些部分会发送到模型API,什么时候发送?

三、有没有做敏感数据脱敏?在哪一层处理?

四、如果监管机构要求记录,你的系统可以提供什么?

这四个问题不需要技术背景。供应商能不能答得清楚,本身就是他们成熟度的指标。

隐私不是「有」或「没有」,而是设计出来的

承诺"绝对安全"的是销售话术。能清楚说明数据每一步去哪里、哪里有保障、哪里是权衡取舍的,才是工程师的做法。

如果你的企业想用AI处理文件,但内部一直卡在数据安全这一关,最有用的第一步是:列出你的文件中哪些字段是真正敏感的。这张清单会让项目范围讨论直接得多。

驻香港独立AI工程师,构建生产级LLM应用、RAG pipeline及文件智能系统。项目制合作,交付前清晰界定范围,交付可运行系统。

联系:smartai.hk+ai.consulting@proton.me
LinkedIn:linkedin.com/in/levi-innovation

联系洽谈 →