一把试探无解之锁的「钥匙」:评 Kagi 搜索 - 少数派#
#Omnivore
TL;DR
The Good:
- 整洁有序、反内容农场、高度可定制的搜索结果
- 草根引擎中少见可接受的中文结果
- 完善而不招摇的 AI 功能
The Bad:
- 面对「生活日常」类检索的响应比较木讷
- 定价过高
The Ugly:
- 搜索引擎不是一个对小玩家友好的市场,能活多久除了实力也看运气
曾经有位家长找到创业大师咨询。家长说,我家孩子有搜索的爱好,想创业做一个搜索引擎怎么样?
只见那大师双眼圆睁,仿佛受了惊吓。半晌后缓过神来,语重心长地说,拉住,好吗?你就拿来 Product Hunt 的目录,闭着眼睛从里面随便摸一个方向,都比搜索引擎好。我就这么跟你说吧,如果我是家长,这孩子一定要做搜索,我一定会干一个事 —— 把、他、打、晕。然后给他找一个别的方向。
……
以上当然是虚构,但如果戏仿的那位老师真的改行去做创业咨询,有理由相信他可能也会对搜索引擎的创业前景做如此判断。
为什么?从头做一个搜索引擎不是一时兴起就能完成的。在 1996 年的论文《大规模超文本 Web 搜索引擎的结构》中,谷歌的两位创始人介绍过搭建搜索引擎所需的各个组件,包括 (1) 穿行网络获取网页内容的爬虫,(2) 解析并分类内容的索引器,(3) 存放索引和存档的数据库,(4) 响应用户请求的前端服务;当然,还有对体验起决定性作用的 (5) 结果排序算法。
如今,构建这个架构中每一项的难度都只会远高于当年,巨大的前置成本足以让大多数小玩家望而却步。
谷歌宏观架构(来源:Brin, Sergey, and Lawrence Page. "The anatomy of a large-scale hypertextual web search engine." Computer networks and ISDN systems 30.1-7 (1998): 107-117.)
还有更多砸钱也不能解决的问题。就算能拥有爬取全网的计算资源,如今的很多网站也早已经对爬虫关上了大门,最多允许几个大玩家进入其围墙花园。同时,爬出的原始数据必然充斥着重复和无关信息,在结合真实使用数据加以训练和调优之前,很难发挥实用价值。
不仅如此,用户的使用习惯也已被谷歌影响和驯化,容易不自觉地将其呈现的结果当成是「正确」和「方便」的,并以此为标准评判其他搜索引擎。因此,即使技术用户年复一年地大声疾呼「谷歌正在消亡」,也很难在更大群体中找到共鸣。
以上种种,都进一步强化了搜索引擎市场的垄断。据 Similarweb 在 2023 年 6 月的统计数据,谷歌在全球搜索市场的份额仍然是一骑绝尘的 90.68%,排名第二位的必应只有 3.23%—— 与半年前的情况基本相同。换言之,即使人财物力强如微软,再加上 GPT 的东风助阵,都没能撼动人们根深蒂固的习惯选择,其他选手就更不用说了。
来源:Similarweb
当然,这些年来也不是没有一些竞争者出现,其中最知名的大概就是 DuckDuckGo(我前几年专门写过)。但正是因为上述困难,它们普遍无法在搜索质量这项硬指标上与谷歌正面抗衡(中文搜索就更是惨不忍睹了),只能日渐热衷于标榜一些口号式、运动式的价值主张 —— 尊重隐私、价值中立甚至保护环境,看多了以后未免令人疲劳和厌倦。
因此,当我在去年最初发现 Kagi 这个搜索引擎新品时,也是抱着一种将信将疑的态度去接触的。这个称自己为「钥匙」(日语的「鍵」/ かぎ)的草根作品,有什么特别之处能超越其他平庸的同侪,为沉疴缠身的搜索引擎市场解锁一些新意呢?
但有两点不那么正经的原因让我决定一定要试试 Kagi。
** 第一,它收的实在有点太多了。**Kagi 没有免费方案,从测试阶段就上线了每月 10 美元的付费方案。尽管我自认为已经很乐于接受付费和订阅,但在连收费都很少见的搜索引擎市场,开口就要这么多,甚至让我有点怀疑这又是一出「收割一波就跑」的剧本,但也因此更想看看它到底有几斤几两。
Kagi 超级自信的收费方案
** 第二,对它的好评实在有点太多了。** 在 Hacker News 上,与 Kagi 相关的资讯和讨论屡屡登上头条位置,每一次都能引来数百评论,其中不乏称赞 Kagi 让自己「多年来第一次对新服务感到兴奋」「找回了早年使用谷歌的快乐」「完全被说服了」之类的「溢美之词」。
熟悉 Hacker News 的朋友知道,这是一个技术人群云集的地方,用户挑剔且毒舌,许多自吹自擂的初创产品都会在这里被「公开处刑」。Kagi 能在这里免受批判,反而收获一群「自来粉」,恐怕是得有两把刷子。
于是刷卡上车,前后用了半年有余。
先说结论:Kagi 确实在很多情况下比谷歌更「好用」。但是,这种「好用」的感觉并非来自于索引规模、算法质量等硬指标的优秀(我们已经在开头说明了这不太现实),而是来自于在索引方式和结果呈现上的各种「巧劲」,以及对其主要受众偏好和需求的准确理解。
下面,我们来看看 Kagi 具体是怎么做到的。
像大多数中小搜索引擎所做的一样,Kagi 的搜索结果首先来自于几个上游引擎。直到今年上半年,Kagi 用的都是谷歌和必应。但随着尝到 AI 甜头的微软在年初对其 API 做了十倍幅度达涨价,Kagi 出于成本考虑只好做了替换,目前的组合是谷歌、Mojeek(来自英国)和 Yandex(来自俄罗斯)。
从我的使用体验看,这次替换没有对结果质量产生很大影响。特别是对于中文搜索来说,索引谷歌结果远比必应更为实用 —— 看看必应的忠实队友 DuckDuckGo 至今一言难尽的中文结果就知道了。选择了谷歌的 Kagi 也因此成了为数不多有能用中文结果的草根引擎。此外,提高来源的多样性也是件好事,可以避免结果过于「美国导向」。
但 Kagi 并没有满足于拿别人的结果缝缝补补,而是在此基础上做了很多调整和优化。
优先呈现「非商业」内容的自主索引#
虽然建一个全网规模的索引比较困难,但独立索引一些小范围、垂直领域的内容还是可以实现的。Kagi 就将主要精力放在了「非商业」内容的索引上。为此,它自主建立了两个索引 Teclis 和 TinyGem,思路都非常有趣。
其中,Teclis(名称来自《战锤》游戏角色)的爬虫是一个 Python 控制的浏览器。这个浏览器安装了去广告插件 uBlock Origin,但目的不是为了屏蔽广告,而是为了检测页面的干净程度;广告和追踪脚本数量过多的网页将被直接踢出索引。
Teclis 还从一个近两年崭露头角的独立引擎 Marginalia 提取结果,后者也是主打搜索网络上的「小众」内容,其索引逻辑是鼓励长文,正文内容或平均句子长度过短的网页会在排序时遭到「惩罚」。
TinyGem 也有类似「非商业」偏好,但主要索引新闻内容,起源于创始人另一个业余项目、同名的网络书签服务。TinyGem 在索引文章时会从语义层面分析其话题、时效性、立场倾向等特征,因此在没有关键词匹配的时候仍然能找出相关结果。
这样,通过将来自上游引擎的结果和来自 Teclis 和 TinyGem 的独立结果相互补充,并在排序上给予「非商业」结果更高权重,Kagi 就实现了既保证搜索结果有较全的「基本面」,又让用户优先看到质量普遍更高、但在大型引擎中往往被埋没的小众内容。
整洁有序的结果页#
搜索结果页是一个信息密度很大的界面,如果设计不当,很容易让人感到无所适从;如今主流搜索引擎中广告变本加厉的趋势更加剧了这个问题。
相比之下,Kagi 的先天优势就是完全不存在推广内容,因此根本无需费心考虑辨别;加上之前提到的偏重高质量内容的索引机制,可以放心所有链接一定是「凭实力」出现在那里的。这种认知负担的减轻将会直接反映在使用效率的提高上。
Kagi 对内容的一些归组方式
除了在源头上保障结果的清洁外,Kagi 还在页面的设计上下了不少功夫。一些我很喜欢的细节包括:归组来自同一网站的类似结果;折叠显示顶着《___个最___的___》格式标题的「清单体」(listicle)内容;突出显示更新日期、匹配关键词等有助于辅助判断页面相关度的信息;为 Reddit、知乎等社区讨论页面显示摘要;等等。
高度灵活的个性化设置#
如开头提到,独立搜索引擎必须面对的一个起步难题,就是缺少足够的初期用户和使用数据来改善搜索结果,因此怎么搜都显得不太灵光。对此,Kagi 采用了一个双赢的办法:提供充足的个性化设置空间。这么做的明智之处在于:对于 Kagi 而言,它在将更多掌控权让渡给了用户的同时,也得以将一部分调优结果的任务「分包」给了用户;对于用户而言,虽然要做的手动配置比用其他引擎时更多,但实打实的效果足以让这些前期工作显得值得。
Kagi 主打的个性化功能有两个:「透镜」(Lens)和「个性化排序」。
透镜功能。 一个「透镜」就是针对一个特定搜索场景预先设置的搜索规则,包括要检索(或排除)的网站、始终包含(或屏蔽)的关键词、结果的时间范围、地区范围、文件类型等。这类似于谷歌至今仍然提供、但日渐雪藏的「自定义搜索」,但设置和使用起来容易得多。
例如,Kagi 已经内置了论坛、编程、世界新闻、学术、PDF 等几个「透镜」。我也将之前用谷歌自定义搜索做的「白名单新闻搜索」复刻了一个透镜版本(有所精简,因为透镜只能包含至多十个域名)。
要调用一个透镜,可以在输入关键词时从搜索框下方选择,在结果页上选择切换,或者为其指定一个快捷短语;熟练的自动化用户还可以通过在搜索链接中附加 l
参数选择透镜。
** 个性化排序。** 尽管 Kagi 的「非商业」偏好已经能在很大程度上改善搜索结果的整体质量,但对于内容的需求和判断毕竟是个性化的。例如,主力使用特定编程语言的开发者可能希望相应语言的文档排在更靠前的位置;对阅读品质有要求的用户可能希望屏蔽一些粗制滥造的来源,即使它并不是严格意义上的内容农场。
Kagi 提供了这种便利。对于任意域名,它允许用户从五种排序规则中择一应用,按优先级降序依次是置顶、增多、正常、减少、封锁。个性化排序有自己独立的设置页面,也可以在搜索结果页点击链接右侧的「域名详情」按钮即时设置。
个性化排序毫无疑问是 Kagi 最受欢迎的功能之一。官方根据这一功能使用情况统计而成的「域名排行榜」已经成为了一个在多处被热议的网络景观 ——Kagi 用户相当于「票选」出了一个它们心目中的网站「红黑榜」。
Kagi 用户置顶和屏蔽最多的网站
可以看出,在获得排序提升的域名中,占绝对多数的是技术交流社区和各种语言、服务和软件的技术文档,其次是维基百科、(略偏自由派的)主流媒体、公共卫生机构,以及 Goodreads、烂番茄、Steam 商店等「书影音游」服务平台。另一方面,Facebook、TikTok 等社交平台,Pinterest、Medium 等准内容农场,W3Schools、GeeksforGeeks 等劣质技术网站,以及 New York Post、Breitbart 等无节操媒体,则被不留情面地钉上了「耻辱柱」。
除了透镜和排序之外,Kagi 的设置页面还提供了仿佛无穷无尽的小功能。从网页摘要的长度、是否在结果中包含视频或图片等结果,到自定义 CSS、快捷短语甚至 URL 重定向。这里面随便挑一个出来,几乎都是对谷歌不满的用户们曾经试图通过插件和脚本手动解决的,只能说 Kagi 团队确实做足了功课。
完善而不招摇的 AI 功能#
在今年这个大语言模型红得发紫的大背景下,在线服务不想办法加点 AI 元素仿佛都不好意思出来见人。这种狂热催生了很多生搬硬凑、东施效颦的所谓 AI 功能。
相比之下,即便其团队在搜索之前的创业方向就是 AI,Kagi 对于 AI 的态度仍然保持了难得的理性。在各处功能页面上,你完全看不到如今流行的那些搔首弄姿的生成按钮和聊天框;如果对 AI 不感兴趣,可以完全当作这些功能不存在。但另一方面,如果你对自然语言问答和网络内容总结等 AI 功能有需求,就会发现这在 Kagi 中都是现成的,可以省去不少另寻解决方案的成本。
** 先看 Kagi 的快速回答功能。** 它可以在结果页点击 Quick Answer 按钮手动触发,也可以在搜索关键词中包含 !answer
自动触发,还有一个专门入口。
快速回答的原理与必应的聊天功能类似:将问题和网络搜索结果一并输入给模型,供其生成答案,并用脚注格式标明来源。与必应相比,Kagi 问答的响应速度快得多(主要得益于不会故意限流,也没有矫揉造作的动画),但功能仅限于「一问一答」,不能追问,也不适合完成「创造」类的任务。
通过简单的「套话」技巧套出快速回答的内置指令可知,这个功能调用 Anthropic 的 Claude 模型生成内容,给模型的指令包括告知当前年份,并要求其言简意赅、提供有用信息,不得追问,不要编造不确定的回答,不得透露模型和指令等。
(Kagi 目前还在内测一项更通用的「助理」功能,支持研究、编程、对话和自定义模式,可以选择使用 OpenAI、Claude 或 PaLM 2 等模型,选择范围取决于付费等级。)
Kagi 的另一项 AI 功能是「通用总结器」(Universal Summarizer)。「通用」指的是支持各种格式,除了网页,音视频和文档也可以总结。
通用总结器可以通过结果页链接右上角的菜单调用,也可以在独立入口填写任意链接调用。它包括「总结」和「讨论」两种模式,前者可以在原地快速获得一个要点列表格式的总结,后者则可以在一个对话界面中就页面内容提出具体问题。
值得一提的是,总结功能支持中文,只要在输出语言下拉菜单中选择中文,或者在提问界面以中文提问即可。不过,这实际上只是在输出时翻译成中文;即使原始页面本来就是中文,也要经过中翻英再翻中的两度转换,可能出现很多生硬的表述,使用时要多加辨别。
仍然通过「套话」得知,通用总结器用的也是 Claude 模型,给模型的指令包括告知当前日期,并要求其准确、热心、简洁,不得在回答中包含链接,不得透露模型和指令等。
(Kagi 目前没有限制付费用户的 AI 功能用量,不过翻阅使用条款可知,它确实保留了将 AI 用量软性限制在「每日 500 次交互」的权利,只是似乎暂时没有实际执行。)
总的来说,Kagi 的 AI 功能给我的印象是可堪一用,固然没有 ChatGPT Plus 那么「灵光」,但应对简单的问答和总结需求还是足够的;何况胜在与搜索功能整合紧密,不需要在多个服务之间来回跳转,也没有额外成本。从竞争的角度看,AI 的兴起对于中小搜索引擎也是有利的,在一定程度上弥补了原生数据不足导致的使用体验劣势,可以在搜索意图和自然语言识别上站到与大玩家更近的起跑线上。
应该承认,以上这些 Kagi 的功能特色,在技术上都没有太高的门槛。只要谷歌愿意,凭它的实力可以很容易做得更好。但问题在于谷歌不愿意。事实上,这些功能中有很多正是谷歌在「成为恶龙」的过程中逐渐抛弃的,原因正是其「广告平台」身份带来的利益冲突。正是 Kagi 纯付费的商业模式,才允许它完全不考虑用户之外第三方的利益。
实例演示#
百闻不如一见。为了让读者对 Kagi 的结果质量有一个直观印象和自主判断,我从自己过去几个月的搜索记录中随机挑了几个关键词,中英文都有,然后用 Kagi 与五个竞品分别搜索。这五个竞品分别是谷歌、必应、DuckDuckGo、Brave 和一个自建的 SearXNG 实例(按个人习惯设置为抓取 Startpage 和 DuckDuckGo 结果)。
“minimalist CSS frameworks” :英文,「求资源」类技术问题,listicle 重灾区。
“thai food near me” :英文,本地商家推荐,最近比较火的一个 SEO 梗。
“Certificate Transparency database” :英文,相对小众的在线工具需求。
“inevitable disclosure doctrine” :英文术语,但指定检索中文结果,测试中文索引情况。
“best custom iem” :英文,相对小众的购物推荐类问题。
「品味 品位」 :中文,经典的易错词辨析问题。
「查询手机号绑定了哪些服务」 :中文,大众化技术问题。
「中国人民银行汇率」 :中文,常用资讯。
「零的焦点」 :中文,书影音资料。
「蔡司 清锐 智锐」 :中文,商品营销术语解释。
不知读者看完这些比较后的印象和偏好如何。我的感觉正如早先所说,如果一一对照搜索结果,Kagi 未必显得特别突出,大多数符合期望的结果通过其他引擎也可以找到,并且具有相近的排序;在本地商家和书影音这些非技术类垂直话题中,Kagi 还明显离坐拥大数据的谷歌有差距。
但是,Kagi 的结果页面确实总体看看着更「舒服」,而这种感觉的来源就是其整洁、无广告的页面,以及归组呈现同域名结果、高亮匹配文本等有助于提高判读效率的细节设计。
收高价的底气与无奈#
该夸的夸完了,最后来谈点更现实的问题:钱。
在任何关于 Kagi 的讨论中,它高昂的收费都是每条赞美之词之后一个巨大的「但是」。毋须讳言,哪怕考虑上 Kagi 的诸多优点,花这么多钱来搜索仍然会是大多数人难以理解的。
对此,Kagi 的解释也很简单:作为一个不以广告为营利模式的产品,它只有用户付费这一个收入来源,而做一个独立搜索引擎的高额成本必然在价格上有所体现。根据官方宣称的数据,它提供每次搜索的平均成本是 0.0125 美元,并且由于 Kagi 用户大多是搜索频度远高于平均值的重度用户,它每月 10 美元的方案实际上一直是在亏钱。
因此,Kagi 自身也在定价方面经历了多次摇摆,今年三月还一度将 10 美元「专业版」的用量限制为每月 700 次,超出后按次收费 0.015 美元,只有升级到 25 美元的「终极版」才能无限搜索。这事实上违反了对早期用户的承诺,也受到了不少争议。直到今年九月,Kagi 才宣布,随着成本优化举措的实施和用户规模的扩大,再次具备了在 10 美元档提供无限量搜索的条件。同时,最多可以六人「拼车」的家庭版(20 美元)也不再设置限额。
个人而言,搜索引擎是我是用最频繁的网络服务,没有之一。由于好奇心比较旺盛,加上习惯开口提问之前先搜索,我的月均搜索量很容易就有一千多次。考虑到 Kagi 确实能带来更高效的搜索体验,还能省下些原本要交给 OpenAI API 的钱,这个费用在我看来是值得的。但另一方面,对于更大多数习惯了「搜索 = 免费」的用户,要说服他们每月多花 10 美元(哪怕是拼单平摊后的 3.3 美元)成本,难度是可想而知的。
这种困难在 Kagi 的用户增长上体现得很明显。根据官方从今年八月开始公示的七日滚动统计图,它的付费用户数几乎始终在稳定地…… 线性增长,近来每日新增在 150 人左右。如果是一个拿风投的公司,看到这个情况大概就要开始担心怎么跟金主交代了。
除非…… 它不需要跟金主交代?
与其在功能上的特立独行相呼应,Kagi 从创立以来就一直走的是「自力更生」(bootstrapped)路线,没有接受过任何正式投资。Kagi 的早期用户很多来自科技行业,对科技公司在增长压力下快速变质的危险有近距离体会,Kagi 的自力更生在他们看来反而是一种加分项。今年六月,Kagi 向 42 位投资者以 SAFE 方式 1
简单解释,SAFE 是著名孵化器 Y Combinator 首创的一种早期项目融资方式,有点像条件更宽松的可转债,投资金额只有在项目未来获得正式融资的时候才能按约定公式转换为股份,否则就一直相当于无息借款。
做了一次总额只有 67 万美元、人均 1.6 万美元的「超迷你融资」。就是这样一笔按硅谷标准好比毛毛雨的金额,引来很多用户评论说「确认自己没有多看一个零就放心了」,言下之意就是「慢慢来,别贪快」。
其实,如果暂时把前十几年风投塑造的叙事放在一边,Kagi 目前的「佛系」增长未必是坏事。对于搜索引擎这样的平台服务,运营成本的增长与用户数的增长是不成比例的。如果 Kagi 按硅谷人士喜欢鼓吹的「幂律」增长,快速膨胀的服务器、客服和合规等成本必然会拖累其有限的财力和精力,还可能过早引起巨头的「关照」,在 API 供应等方面对其设置障碍,其结果可能就又是一个昙花一现的失败案例。
此外,Kagi 的索引方式和功能设置,本来就更偏向从事技术类、研究类工作人群的需求,要充分发挥其优势也要经过一定的学习门槛。可以想象,如果一个用户主要靠搜索引擎解答生活服务类问题,更多依赖「大数据」读心术而不是调试过滤规则获取结果,Kagi 并不能为他带来比谷歌更好的体验;试图大量发展这类用户对于 Kagi 可能也是吃力不讨好的。
相反,通过坚持一个相对「低速」的增长趋势,并将潜在市场界定为对搜索质量和效率有更高要求的用户,Kagi 可以更从容地应对新出现的问题和需求,有更充足的时间积累自己的独立索引数据和技术;这更符合它自身和用户的利益。去年九月,在上线三个月的运营状况报告中,Kagi 表示可以在吸引 2.5 万名用户付费的情况下达到收支平衡。目前的进度下,它有望在 2023 年底前实现这一目标。按这个标准,Kagi 的发展和存续是让人有一定信心的。
搜索引擎或许注定就是一个倾向于自然垄断的市场,但 Kagi 的使命也不是撬开由巨头把手的大门。像一把精致的钥匙,Kagi 能为一部分不愿视角被局限的人开启一扇窗,这就足以成为存在的意义和可尊重的成就。
- 1 简单解释,SAFE 是著名孵化器 Y Combinator 首创的一种早期项目融资方式,有点像条件更宽松的可转债,投资金额只有在项目未来获得正式融资的时候才能按约定公式转换为股份,否则就一直相当于无息借款。