← 博客
繁體中文 English 简体中文
Levi · LinkedIn

啲文件係咪上載晒去美國?

香港企業用AI處理機密文件前要知嘅資料流向

AI私隱 資料流向 企業合規 香港 API安全 受監管行業

同香港企業傾AI項目,最常被問嘅唔係價錢,係呢句:「我哋嘅合約、保單、客戶資料,係咪全部send咗去OpenAI?」

呢個問題完全正當。但市場上嘅答案通常兩極:供應商話「冇問題㗎」,或者企業內部直接禁用所有AI。兩種反應都建基於唔清楚資料實際去咗邊。

呢篇文講清楚。

員工用ChatGPT同公司系統調用API,係兩回事

最大嘅誤解係將兩樣嘢混為一談。

員工自己開ChatGPT免費版,貼公司文件入去——呢啲對話內容預設可以被用作模型訓練。你嘅合約條款,理論上會成為模型嘅一部分。呢個係好多企業禁用AI嘅原因,而呢個擔憂係啱嘅。

但企業系統經API調用模型——Claude、GPT、Gemini嘅商業API——係另一個合約框架。主要供應商嘅API條款列明:API輸入輸出唔會用作模型訓練。Anthropic、OpenAI嘅商業條款都有明確承諾。

換句話講:你公司而家最大嘅資料外洩風險,唔係將來嘅AI系統,係今日員工已經在用緊嘅免費ChatGPT。一個設計正確嘅內部系統,反而係將呢個風險收返入受控範圍。

「唔會攞嚟訓練」唔等於「乜都唔留」

誠實講清楚:API供應商一般會短期保留請求紀錄(通常30日內)用作濫用監察,之後刪除。部分供應商提供零保留選項,但需要企業級協議。

對大多數香港中小企嘅文件處理需求,標準API條款已經足夠。但如果你嘅行業有明確嘅資料駐留要求——例如部分金融機構嘅內部政策——呢個就要喺範疇討論一開始講明,因為佢會直接改變架構選擇同成本。

任何工程師如果答你「資料完全唔會離開你公司」但同時用緊雲端LLM API,佢講緊大話。資料會經加密通道送到模型供應商處理——呢個係技術事實。問題唔係「會唔會送出」,係「送出之後嘅合約保障同保留政策係咩」。

架構可以做嘅事:減少需要送出嘅嘢

資料流向唔只係條款問題,係設計問題。

一個諗過私隱嘅系統,可以喺送出之前做脫敏——客戶姓名、身份證號碼、賬戶號碼喺本地替換成代號,模型處理完再還原。模型見到嘅係「客戶A嘅保單」,唔係真實姓名。

檢索架構本身亦有私隱含義:RAG系統每次只送出同問題相關嘅文件片段,唔係成個文件庫。你十年嘅合約檔案存喺你自己嘅數據庫,模型每次只接觸回答當前問題所需嘅幾段文字。

呢啲唔係額外功能,係架構決定。喺報價階段已經定咗,後補成本高幾倍。

「本地部署」嘅迷思

有企業問:可唔可以完全本地運行,唔用任何雲端API?

技術上可以——開源模型可以部署喺自己伺服器。但實際情況要講清楚:達到商業可用質素嘅模型需要嘅GPU硬件,前期投資以十萬港元計,仲未計維護。而開源模型喺廣東話同中英混合文件上嘅表現,同頂級API模型有可見差距。

對絕大多數中小企,呢個組合唔成立:付十倍成本,攞七成質素。本地部署嘅真實適用場景係大型機構嘅特定合規要求——而嗰啲機構需要嘅係內部infrastructure團隊,唔係項目制工程師。

簽約前值得問供應商嘅四條問題

一、系統用邊個模型供應商?API條款入面關於訓練用途同資料保留嘅條文係點?答唔出 = 佢冇睇過自己用緊嘅嘢嘅條款。

二、我嘅文件庫存喺邊?邊啲部分會送到模型API,幾時送?

三、有冇做敏感資料脫敏?做喺邊一層?

四、如果監管機構要求紀錄,你嘅系統可以提供咩?

呢四條問題唔需要技術背景。供應商答得清唔清楚,本身就係佢成唔成熟嘅指標。

私隱唔係「有」或「冇」,係設計出嚟嘅

承諾「絕對安全」嘅係銷售話術。講得清楚資料每一步去邊、邊度有保障、邊度係取捨嘅,先係工程師。

如果你嘅企業想用AI處理文件,但內部一直卡喺資料安全呢關,最有用嘅第一步係:列出你嘅文件入面邊啲欄位係真正敏感嘅。呢張清單會令範疇討論直接好多。

駐香港獨立AI工程師,構建生產級LLM應用、RAG pipeline及文件智能系統。項目制合作,交付前清晰界定範疇,交付可運行系統。

聯絡:smartai.hk+ai.consulting@proton.me
LinkedIn:linkedin.com/in/levi-innovation

聯絡洽談 →