← 博客
繁體中文 English 简体中文
2026-04-30 · HKSoka

普通人只跟品牌选AI——
Gemini登App Store第一是一个警号

Gemini在香港正式推出那天,直接冲上了App Store免费榜第一。有人庆祝,有新闻报道,有人说「香港终于可以用AI了」。

但App Store排名反映的是下载量,不是准确率。一个免费、易用、有大品牌背书的App,就足以排第一——和它答得准不准完全没有关系。Gemini是不是最好的AI?这个问题,排名回答不了。

大多数人怎么选AI工具

大多数人选AI的方式是:听说过、见过、朋友在用、App Store排名高。不是因为做过Claude vs Gemini的对比测试,不是因为看过幻觉率评测,而是因为品牌熟悉——Google大,Gemini有名,自然就信了。

这不是用户的错。是没有足够的信息可以判断。市场上几乎没有人用普通人看得懂的语言解释:不同AI模型在准确性上的差距究竟有多大,以及这个差距在实际使用中如何影响你。

Gemini幻觉问题:业界有记录的现象

在AI业界,「幻觉」(hallucination)是指模型生成看似合理但实际错误的内容——包括捏造的数据、不存在的引用来源、错误的事实陈述。

Gemini在幻觉率上的表现,是业界多份独立评测中有记录的问题。具体表现包括:引用不存在的学术论文、以完全肯定的语气提供错误信息、在需要精确推理的任务上出现系统性偏差。

最大的问题不是它会出错——每个AI都会出错。最大的问题是:Gemini出错时,语气和答对时一模一样。用户根本不知道什么时候该怀疑答案。

如果你用AI做研究、核实资料、撰写需要准确性的内容,这是直接影响工作质量的问题。

庆祝的是access,不是quality

大家庆祝Gemini,是因为终于有一个不需要VPN、不需要境外信用卡的AI可以用了。这种兴奋完全合理。access一直是真实存在的门槛,能够消除是好事。

但庆祝的是access,不是Gemini本身有多好。两件事不是同一件事。就好比一座城市终于新开了一家连锁餐厅——庆祝的是终于有得选,不是这家一定是全城最好。

流畅不等于准确

没有参照系的用户,只能靠感受判断AI好不好。回答流畅,语气肯定,段落整齐,自然觉得可靠。但流畅是输出风格,不是准确度的指标。

一个AI可以用非常自信的语气,提供完全错误的信息。很多时候用户根本不知道出了问题——因为答案看起来完全合理,直到有人花时间核实才发现错误。

在需要准确性的使用场景——医疗信息查询、法律条文理解、财务数据分析、学术研究——这不是细节问题,是根本问题。

Claude vs Gemini:不同任务上的实际差距

不同AI模型在不同任务类型上的表现差距,比大多数人预期的要大。复杂推理任务、长文理解、需要多步骤逻辑的问题、事实核查——这几类任务是Claude相对Gemini有持续可量化优势的领域,也是多项独立benchmark研究一致记录的结论。

反过来,Gemini在Google Workspace集成、实时网络搜索、多媒体处理上有其优势。

选择AI工具的问题不是「哪个最好」,而是「哪个最适合我的使用场景」。但你要先知道存在差异,才能做出有依据的选择。

为什么HKSoka选择Claude

HKSoka选择Claude作为底层模型,不是因为它最有名,而是因为在需要准确性和推理能力的任务上,Claude有持续可量化的表现记录。

加上HKSoka的两层记忆系统——Layer 1储存你主动提供的背景信息,Layer 2从每次对话中学习你的习惯和偏好——让Claude真正记住你是谁,不需要每次对话都重新自我介绍。这是原版Claude体验,没有经过简化或降智处理。

(想了解两层记忆系统如何运作?可以看这篇文章。)

这不是叫你不用Gemini

而是叫你知道自己在用什么。每个AI都有幻觉倾向,但倾向不同,严重程度不同,在不同任务类型上出现的频率不同。先了解,再信任。

App Store第一,只代表很多人下载了。不代表它是你需要的那一个。选择工具是你的决定。但基于真实信息做出的选择,才是真正的自主选择。

想试用一个以准确性为优先、有记忆功能的Claude平台?

免费试用 HKSoka →