啲文件係咪上載晒去美國？

香港企業用AI處理機密文件前要知嘅資料流向

AI私隱資料流向企業合規香港 API安全受監管行業

同香港企業傾AI項目，最常被問嘅唔係價錢，係呢句：「我哋嘅合約、保單、客戶資料，係咪全部send咗去OpenAI？」

呢個問題完全正當。但市場上嘅答案通常兩極：供應商話「冇問題㗎」，或者企業內部直接禁用所有AI。兩種反應都建基於唔清楚資料實際去咗邊。

呢篇文講清楚。

員工用ChatGPT同公司系統調用API，係兩回事

最大嘅誤解係將兩樣嘢混為一談。

員工自己開ChatGPT免費版，貼公司文件入去——呢啲對話內容預設可以被用作模型訓練。你嘅合約條款，理論上會成為模型嘅一部分。呢個係好多企業禁用AI嘅原因，而呢個擔憂係啱嘅。

但企業系統經API調用模型——Claude、GPT、Gemini嘅商業API——係另一個合約框架。主要供應商嘅API條款列明：API輸入輸出唔會用作模型訓練。Anthropic、OpenAI嘅商業條款都有明確承諾。

換句話講：你公司而家最大嘅資料外洩風險，唔係將來嘅AI系統，係今日員工已經在用緊嘅免費ChatGPT。一個設計正確嘅內部系統，反而係將呢個風險收返入受控範圍。

誠實講清楚：API供應商一般會短期保留請求紀錄（通常30日內）用作濫用監察，之後刪除。部分供應商提供零保留選項，但需要企業級協議。

對大多數香港中小企嘅文件處理需求，標準API條款已經足夠。但如果你嘅行業有明確嘅資料駐留要求——例如部分金融機構嘅內部政策——呢個就要喺範疇討論一開始講明，因為佢會直接改變架構選擇同成本。

任何工程師如果答你「資料完全唔會離開你公司」但同時用緊雲端LLM API，佢講緊大話。資料會經加密通道送到模型供應商處理——呢個係技術事實。問題唔係「會唔會送出」，係「送出之後嘅合約保障同保留政策係咩」。

資料流向唔只係條款問題，係設計問題。

一個諗過私隱嘅系統，可以喺送出之前做脫敏——客戶姓名、身份證號碼、賬戶號碼喺本地替換成代號，模型處理完再還原。模型見到嘅係「客戶A嘅保單」，唔係真實姓名。

檢索架構本身亦有私隱含義：RAG系統每次只送出同問題相關嘅文件片段，唔係成個文件庫。你十年嘅合約檔案存喺你自己嘅數據庫，模型每次只接觸回答當前問題所需嘅幾段文字。

呢啲唔係額外功能，係架構決定。喺報價階段已經定咗，後補成本高幾倍。

有企業問：可唔可以完全本地運行，唔用任何雲端API？

技術上可以——開源模型可以部署喺自己伺服器。但實際情況要講清楚：達到商業可用質素嘅模型需要嘅GPU硬件，前期投資以十萬港元計，仲未計維護。而開源模型喺廣東話同中英混合文件上嘅表現，同頂級API模型有可見差距。

對絕大多數中小企，呢個組合唔成立：付十倍成本，攞七成質素。本地部署嘅真實適用場景係大型機構嘅特定合規要求——而嗰啲機構需要嘅係內部infrastructure團隊，唔係項目制工程師。

一、系統用邊個模型供應商？API條款入面關於訓練用途同資料保留嘅條文係點？答唔出 = 佢冇睇過自己用緊嘅嘢嘅條款。

二、我嘅文件庫存喺邊？邊啲部分會送到模型API，幾時送？

三、有冇做敏感資料脫敏？做喺邊一層？

四、如果監管機構要求紀錄，你嘅系統可以提供咩？

呢四條問題唔需要技術背景。供應商答得清唔清楚，本身就係佢成唔成熟嘅指標。

承諾「絕對安全」嘅係銷售話術。講得清楚資料每一步去邊、邊度有保障、邊度係取捨嘅，先係工程師。

如果你嘅企業想用AI處理文件，但內部一直卡喺資料安全呢關，最有用嘅第一步係：列出你嘅文件入面邊啲欄位係真正敏感嘅。呢張清單會令範疇討論直接好多。

駐香港獨立AI工程師，構建生產級LLM應用、RAG pipeline及文件智能系統。項目制合作，交付前清晰界定範疇，交付可運行系統。