普通人只跟品牌选AI——
Gemini登App Store第一是一个警号
Gemini在香港正式推出那天,直接冲上了App Store免费榜第一。有人庆祝,有新闻报道,有人说「香港终于可以用AI了」。
但App Store排名反映的是下载量,不是准确率。一个免费、易用、有大品牌背书的App,就足以排第一——和它答得准不准完全没有关系。Gemini是不是最好的AI?这个问题,排名回答不了。
大多数人怎么选AI工具
大多数人选AI的方式是:听说过、见过、朋友在用、App Store排名高。不是因为做过Claude vs Gemini的对比测试,不是因为看过幻觉率评测,而是因为品牌熟悉——Google大,Gemini有名,自然就信了。
这不是用户的错。是没有足够的信息可以判断。市场上几乎没有人用普通人看得懂的语言解释:不同AI模型在准确性上的差距究竟有多大,以及这个差距在实际使用中如何影响你。
Gemini幻觉问题:业界有记录的现象
在AI业界,「幻觉」(hallucination)是指模型生成看似合理但实际错误的内容——包括捏造的数据、不存在的引用来源、错误的事实陈述。
Gemini在幻觉率上的表现,是业界多份独立评测中有记录的问题。具体表现包括:引用不存在的学术论文、以完全肯定的语气提供错误信息、在需要精确推理的任务上出现系统性偏差。
如果你用AI做研究、核实资料、撰写需要准确性的内容,这是直接影响工作质量的问题。
庆祝的是access,不是quality
大家庆祝Gemini,是因为终于有一个不需要VPN、不需要境外信用卡的AI可以用了。这种兴奋完全合理。access一直是真实存在的门槛,能够消除是好事。
但庆祝的是access,不是Gemini本身有多好。两件事不是同一件事。就好比一座城市终于新开了一家连锁餐厅——庆祝的是终于有得选,不是这家一定是全城最好。
流畅不等于准确
没有参照系的用户,只能靠感受判断AI好不好。回答流畅,语气肯定,段落整齐,自然觉得可靠。但流畅是输出风格,不是准确度的指标。
在需要准确性的使用场景——医疗信息查询、法律条文理解、财务数据分析、学术研究——这不是细节问题,是根本问题。
Claude vs Gemini:不同任务上的实际差距
不同AI模型在不同任务类型上的表现差距,比大多数人预期的要大。复杂推理任务、长文理解、需要多步骤逻辑的问题、事实核查——这几类任务是Claude相对Gemini有持续可量化优势的领域,也是多项独立benchmark研究一致记录的结论。
反过来,Gemini在Google Workspace集成、实时网络搜索、多媒体处理上有其优势。
为什么HKSoka选择Claude
HKSoka选择Claude作为底层模型,不是因为它最有名,而是因为在需要准确性和推理能力的任务上,Claude有持续可量化的表现记录。
加上HKSoka的两层记忆系统——Layer 1储存你主动提供的背景信息,Layer 2从每次对话中学习你的习惯和偏好——让Claude真正记住你是谁,不需要每次对话都重新自我介绍。这是原版Claude体验,没有经过简化或降智处理。
(想了解两层记忆系统如何运作?可以看这篇文章。)
这不是叫你不用Gemini
而是叫你知道自己在用什么。每个AI都有幻觉倾向,但倾向不同,严重程度不同,在不同任务类型上出现的频率不同。先了解,再信任。
App Store第一,只代表很多人下载了。不代表它是你需要的那一个。选择工具是你的决定。但基于真实信息做出的选择,才是真正的自主选择。
想试用一个以准确性为优先、有记忆功能的Claude平台?
免费试用 HKSoka →