← 博客
繁體中文 English 简体中文
2026-04-30 · HKSoka

普通人只跟brand揀AI——
Gemini登App Store第一係一個警號

Gemini喺香港正式推出嗰日,即刻上咗App Store免費榜第一。有人慶祝,有新聞報導,有人話「香港終於有得用AI喇」。

但App Store排名反映嘅係下載量,唔係準確率。一個App免費、易用、有大品牌背書,就夠佢排第一——同佢答得準唔準完全冇關係。

Gemini係咪最好嘅AI?呢個問題,排名回答唔到。

香港人點揀AI工具

大多數人揀AI嘅方式係:聽過、見過、朋友用緊、App Store排名高。唔係因為試過Claude vs Gemini對比。唔係因為睇過幻覺率測試。係因為brand熟悉——Google大,Gemini有名,自然信。

呢個唔係用戶嘅錯。係冇足夠資訊去判斷。市場上幾乎冇人用普通人睇得明嘅語言解釋:唔同AI model喺準確性上有幾大差距,同埋呢個差距喺實際使用中點樣影響你。

Gemini幻覺問題:業界有紀錄嘅現象

喺AI業界,「幻覺」(hallucination)係指模型生成看似合理但實際錯誤嘅資訊——包括捏造嘅數據、唔存在嘅引用來源、錯誤嘅事實陳述。

Gemini喺幻覺率上嘅表現,係業界多份獨立評測中有記錄嘅問題。具體表現包括:cite唔存在嘅學術論文、提供錯誤資訊但語氣完全肯定、喺需要精確推理嘅任務上出現系統性偏差。

最大嘅問題唔係佢會出錯——每個AI都會出錯。最大嘅問題係:Gemini出錯時,語氣同答啱嗰時一模一樣。用戶根本唔知幾時該懷疑答案。

如果你用AI做研究、核實資料、寫需要準確性嘅內容,呢個係直接影響你工作質素嘅問題。

慶祝嘅係access,唔係quality

香港人慶祝Gemini,係因為終於有一個唔需要VPN、唔需要外國信用卡嘅AI可以用。呢個excitement完全合理。喺香港,access一直係真實嘅障礙。能夠移除係好事。

但慶祝嘅係access,唔係Gemini本身有幾好。兩件事唔係同一件事。就好似一個城市終於有新餐廳開張——慶祝嘅係終於有得揀,唔係呢間餐廳一定係城中最好。

流暢唔等於準確

冇context嘅用戶,只能用感受判斷AI好唔好。AI答得流暢,語氣肯定,段落整齊,自然覺得可靠。但流暢係輸出風格,唔係準確度指標。

一個AI可以用非常自信嘅語氣,提供完全錯誤嘅資訊。好多時用戶根本唔知出咗事——因為答案睇落去完全合理,直到有人花時間核實先發現問題。

喺需要準確性嘅使用場景——醫療資訊查詢、法律條文理解、財務數據分析、學術研究——呢個唔係細節問題,係根本問題。

Claude vs Gemini:唔同任務上嘅實際差距

唔同AI model喺唔同任務類型上嘅表現差距,比大多數人預期嘅大。複雜推理任務、長文理解、需要多步驟邏輯嘅問題、事實核查——呢幾類任務係Claude相對Gemini有持續可量度優勢嘅範疇,亦係多個獨立benchmark研究一致記錄嘅結果。

反過來,Gemini喺Google Workspace整合、即時網絡搜尋、多媒體處理上有佢嘅優勢。

選擇AI工具嘅問題唔係「邊個最好」,係「邊個最適合你嘅使用場景」。但你要先知道有分別,先可以做出有根據嘅選擇。

點解HKSoka用Claude

HKSoka選擇Claude作為底層model,唔係因為佢最有名,係因為喺需要準確性同推理能力嘅任務上,Claude有持續可量度嘅表現記錄。

加上HKSoka嘅兩層記憶系統——Layer 1儲存你主動提供嘅背景資料,Layer 2從每次對話中學習你嘅習慣同偏好——令Claude真正記住你係邊個,唔需要每次對話重頭解釋。呢個係原味Claude體驗,唔係被簡化或者降智過嘅版本。

(想了解兩層記憶系統點運作?可以睇呢篇文。)

唔係叫你唔用Gemini

係叫你知道自己用緊咩。每個AI都有幻覺傾向,但傾向唔同,嚴重程度唔同,喺唔同任務類型上出現嘅頻率唔同。了解先,再信任。

App Store第一,只係代表好多人下載咗。唔代表佢係你需要嘅那一個。選擇工具係你嘅決定。但做有根據嘅決定,先係真正嘅autonomy。

想試用一個以準確性為優先、有記憶功能嘅Claude平台?

免費試用 HKSoka →