普通人只跟brand揀AI——
Gemini登App Store第一係一個警號
Gemini喺香港正式推出嗰日,即刻上咗App Store免費榜第一。有人慶祝,有新聞報導,有人話「香港終於有得用AI喇」。
但App Store排名反映嘅係下載量,唔係準確率。一個App免費、易用、有大品牌背書,就夠佢排第一——同佢答得準唔準完全冇關係。
Gemini係咪最好嘅AI?呢個問題,排名回答唔到。
香港人點揀AI工具
大多數人揀AI嘅方式係:聽過、見過、朋友用緊、App Store排名高。唔係因為試過Claude vs Gemini對比。唔係因為睇過幻覺率測試。係因為brand熟悉——Google大,Gemini有名,自然信。
呢個唔係用戶嘅錯。係冇足夠資訊去判斷。市場上幾乎冇人用普通人睇得明嘅語言解釋:唔同AI model喺準確性上有幾大差距,同埋呢個差距喺實際使用中點樣影響你。
Gemini幻覺問題:業界有紀錄嘅現象
喺AI業界,「幻覺」(hallucination)係指模型生成看似合理但實際錯誤嘅資訊——包括捏造嘅數據、唔存在嘅引用來源、錯誤嘅事實陳述。
Gemini喺幻覺率上嘅表現,係業界多份獨立評測中有記錄嘅問題。具體表現包括:cite唔存在嘅學術論文、提供錯誤資訊但語氣完全肯定、喺需要精確推理嘅任務上出現系統性偏差。
如果你用AI做研究、核實資料、寫需要準確性嘅內容,呢個係直接影響你工作質素嘅問題。
慶祝嘅係access,唔係quality
香港人慶祝Gemini,係因為終於有一個唔需要VPN、唔需要外國信用卡嘅AI可以用。呢個excitement完全合理。喺香港,access一直係真實嘅障礙。能夠移除係好事。
但慶祝嘅係access,唔係Gemini本身有幾好。兩件事唔係同一件事。就好似一個城市終於有新餐廳開張——慶祝嘅係終於有得揀,唔係呢間餐廳一定係城中最好。
流暢唔等於準確
冇context嘅用戶,只能用感受判斷AI好唔好。AI答得流暢,語氣肯定,段落整齊,自然覺得可靠。但流暢係輸出風格,唔係準確度指標。
一個AI可以用非常自信嘅語氣,提供完全錯誤嘅資訊。好多時用戶根本唔知出咗事——因為答案睇落去完全合理,直到有人花時間核實先發現問題。
Claude vs Gemini:唔同任務上嘅實際差距
唔同AI model喺唔同任務類型上嘅表現差距,比大多數人預期嘅大。複雜推理任務、長文理解、需要多步驟邏輯嘅問題、事實核查——呢幾類任務係Claude相對Gemini有持續可量度優勢嘅範疇,亦係多個獨立benchmark研究一致記錄嘅結果。
反過來,Gemini喺Google Workspace整合、即時網絡搜尋、多媒體處理上有佢嘅優勢。
點解HKSoka用Claude
HKSoka選擇Claude作為底層model,唔係因為佢最有名,係因為喺需要準確性同推理能力嘅任務上,Claude有持續可量度嘅表現記錄。
加上HKSoka嘅兩層記憶系統——Layer 1儲存你主動提供嘅背景資料,Layer 2從每次對話中學習你嘅習慣同偏好——令Claude真正記住你係邊個,唔需要每次對話重頭解釋。呢個係原味Claude體驗,唔係被簡化或者降智過嘅版本。
(想了解兩層記憶系統點運作?可以睇呢篇文。)
唔係叫你唔用Gemini
係叫你知道自己用緊咩。每個AI都有幻覺傾向,但傾向唔同,嚴重程度唔同,喺唔同任務類型上出現嘅頻率唔同。了解先,再信任。
App Store第一,只係代表好多人下載咗。唔代表佢係你需要嘅那一個。選擇工具係你嘅決定。但做有根據嘅決定,先係真正嘅autonomy。
想試用一個以準確性為優先、有記憶功能嘅Claude平台?
免費試用 HKSoka →