那些文件是否全部上传到了美国？

香港企业用AI处理机密文件前需了解的数据流向

AI隐私数据流向企业合规香港 API安全受监管行业

与香港企业谈AI项目，被问得最多的不是价格，而是这句话："我们的合同、保单、客户资料，是不是全部发送给了OpenAI？"

这个问题完全合理。但市场上的答案通常走向两个极端：供应商说"没问题的"，或者企业内部直接禁止所有AI工具。两种反应都建立在不清楚数据实际去向的基础上。

本文把这件事讲清楚。

员工使用ChatGPT与公司系统调用API，是两回事

最大的误解是把这两件事混为一谈。

员工自己打开免费版ChatGPT，把公司文件粘贴进去——这些对话内容默认可以被用于模型训练。你的合同条款，理论上会成为模型的一部分。这是很多企业禁止AI的原因，而这个担忧是正确的。

但企业系统通过API调用模型——Claude、GPT、Gemini的商业API——是另一套合同框架。主要供应商的API条款明确写明：API输入输出不会用于模型训练。Anthropic和OpenAI的商业条款都有明确承诺。

换句话说：你公司目前最大的数据泄露风险，不是未来的AI系统，而是今天员工已经在使用的免费ChatGPT。一个设计正确的内部系统，反而是把这个风险收回到可控范围内。

诚实地说：API供应商通常会短期保留请求日志（通常30天内）用于滥用监控，之后删除。部分供应商提供零保留选项，但需要企业级协议。

对于大多数香港中小企业的文件处理需求，标准API条款已经足够。但如果你的行业有明确的数据驻留要求——例如部分金融机构的内部政策——这需要在项目范围讨论一开始就说清楚，因为这会直接影响架构选择和成本。

任何工程师如果告诉你"数据完全不会离开你的公司"，但同时在使用云端LLM API，他说的不是实话。数据会通过加密通道发送到模型供应商处理——这是技术事实。问题不是"会不会发送出去"，而是"发送后的合同保障和保留政策是什么"。

数据流向不只是条款问题，而是设计问题。

一个考虑过隐私的系统，可以在发送前做脱敏处理——客户姓名、身份证号码、账户号码在本地替换成代号，模型处理完再还原。模型看到的是"客户A的保单"，而不是真实姓名。

检索架构本身也有隐私含义：RAG系统每次只发送与当前问题相关的文件片段，而不是整个文件库。你十年的合同档案存储在你自己的数据库里，模型每次只接触回答当前问题所需的几段文字。

这些不是额外功能，而是架构决策。在报价阶段就已经确定，事后补充的成本要高出数倍。

有企业会问：能不能完全本地运行，不使用任何云端API？

技术上可以——开源模型可以部署在自己的服务器上。但实际情况需要说清楚：达到商业可用质量的模型所需的GPU硬件，前期投资以数十万港元计，还不算维护成本。而开源模型在粤语和中英混合文件上的表现，与顶级API模型相比有明显差距。

对绝大多数中小企业，这个组合不成立：付出十倍成本，获得七成质量。本地部署真正的适用场景是大型机构的特定合规要求——而那些机构需要的是内部基础设施团队，而不是项目制工程师。

一、系统使用哪家模型供应商？API条款中关于训练用途和数据保留的条文是什么？答不上来 = 他没有读过自己使用的产品的条款。

二、我的文件库存储在哪里？哪些部分会发送到模型API，什么时候发送？

三、有没有做敏感数据脱敏？在哪一层处理？

四、如果监管机构要求记录，你的系统可以提供什么？

这四个问题不需要技术背景。供应商能不能答得清楚，本身就是他们成熟度的指标。

承诺"绝对安全"的是销售话术。能清楚说明数据每一步去哪里、哪里有保障、哪里是权衡取舍的，才是工程师的做法。

如果你的企业想用AI处理文件，但内部一直卡在数据安全这一关，最有用的第一步是：列出你的文件中哪些字段是真正敏感的。这张清单会让项目范围讨论直接得多。

驻香港独立AI工程师，构建生产级LLM应用、RAG pipeline及文件智能系统。项目制合作，交付前清晰界定范围，交付可运行系统。

微信：freedom_from_gold　或邮件：support@hksoka.com