一把試探無解之鎖的「鑰匙」:評 Kagi 搜索 - 少數派#
#Omnivore
TL;DR
優點:
- 整潔有序、反內容農場、高度可定制的搜索結果
- 草根引擎中少見可接受的中文結果
- 完善而不招搖的 AI 功能
缺點:
- 面對「生活日常」類檢索的響應比較木訥
- 定價過高
醜陋:
- 搜索引擎不是一個對小玩家友好的市場,能活多久除了實力也看運氣
曾經有位家長找到創業大師諮詢。家長說,我家孩子有搜索的愛好,想創業做一個搜索引擎怎麼樣?
只見那大師雙眼圓睜,仿佛受了驚嚇。半晌後緩過神來,語重心長地說,拉住,好嗎?你就拿來 Product Hunt 的目錄,閉著眼睛從裡面隨便摸一個方向,都比搜索引擎好。我就這麼跟你說吧,如果我是家長,這孩子一定要做搜索,我一定會幹一個事 —— 把、他、打、暈。然後給他找一個別的方向。
……
以上當然是虛構,但如果戲仿的那位老師真的改行去做創業諮詢,有理由相信他可能也會對搜索引擎的創業前景做如此判斷。
為什麼?從頭做一個搜索引擎不是一時興起就能完成的。在 1996 年的論文《大規模超文本 Web 搜索引擎的結構》中,谷歌的兩位創始人介紹過搭建搜索引擎所需的各個組件,包括 (1) 穿行網絡獲取網頁內容的爬蟲,(2) 解析並分類內容的索引器,(3) 存放索引和存檔的數據庫,(4) 響應用戶請求的前端服務;當然,還有對體驗起決定性作用的 (5) 結果排序算法。
如今,構建這個架構中每一項的難度都只會遠高於當年,巨大的前置成本足以讓大多數小玩家望而卻步。
谷歌宏觀架構(來源:Brin, Sergey, and Lawrence Page. "The anatomy of a large-scale hypertextual web search engine." Computer networks and ISDN systems 30.1-7 (1998): 107-117.)
還有更多砸錢也不能解決的問題。就算能擁有爬取全網的計算資源,如今的很多網站也早已經對爬蟲關上了大門,最多允許幾個大玩家進入其圍牆花園。同時,爬出的原始數據必然充斥著重複和無關信息,在結合真實使用數據加以訓練和調優之前,很難發揮實用價值。
不僅如此,用戶的使用習慣也已被谷歌影響和馴化,容易不自覺地將其呈現的結果當成是「正確」和「方便」的,並以此為標準評判其他搜索引擎。因此,即使技術用戶年復一年地大聲疾呼「谷歌正在消亡」,也很難在更大群體中找到共鳴。
以上種種,都進一步強化了搜索引擎市場的壟斷。據 Similarweb 在 2023 年 6 月的統計數據,谷歌在全球搜索市場的份額仍然是一騎絕塵的 90.68%,排名第二位的必應只有 3.23%—— 與半年前的情況基本相同。換言之,即使人財物力強如微軟,再加上 GPT 的東風助陣,都沒能撼動人們根深蒂固的習慣選擇,其他選手就更不用說了。
來源:Similarweb
當然,這些年來也不是沒有一些競爭者出現,其中最知名的大概就是 DuckDuckGo(我前幾年專門寫過)。但正是因為上述困難,它們普遍無法在搜索質量這項硬指標上與谷歌正面抗衡(中文搜索就更是慘不忍睹了),只能日漸熱衷於標榜一些口號式、運動式的價值主張 —— 尊重隱私、價值中立甚至保護環境,看多了以後未免令人疲勞和厭倦。
因此,當我在去年最初發現 Kagi 這個搜索引擎新品時,也是抱著一種將信將疑的態度去接觸的。這個稱自己為「鑰匙」(日語的「鍵」/ かぎ)的草根作品,有什麼特別之處能超越其他平庸的同儕,為沉疴纏身的搜索引擎市場解鎖一些新意呢?
但有兩點不那麼正經的原因讓我決定一定要試試 Kagi。
** 第一,它收的實在有點太多了。**Kagi 沒有免費方案,從測試階段就上線了每月 10 美元的付費方案。儘管我自認為已經很樂於接受付費和訂閱,但在連收費都很少見的搜索引擎市場,開口就要這麼多,甚至讓我有點懷疑這又是一出「收割一波就跑」的劇本,但也因此更想看看它到底有幾斤幾兩。
Kagi 超級自信的收費方案
** 第二,對它的好評實在有點太多了。** 在 Hacker News 上,與 Kagi 相關的資訊和討論屢屢登上頭條位置,每一次都能引來數百評論,其中不乏稱讚 Kagi 讓自己「多年來第一次對新服務感到興奮」「找回了早年使用谷歌的快樂」「完全被說服了」之類的「溢美之詞」。
熟悉 Hacker News 的朋友知道,這是一個技術人群雲集的地方,用戶挑剔且毒舌,許多自吹自擂的初創產品都會在這裡被「公開處刑」。Kagi 能在這裡免受批判,反而收穫一群「自來粉」,恐怕是得有兩把刷子。
於是刷卡上車,前後用了半年有余。
先說結論:Kagi 確實在很多情況下比谷歌更「好用」。但是,這種「好用」的感覺並非來自於索引規模、算法質量等硬指標的優秀(我們已經在開頭說明了這不太現實),而是來自於在索引方式和結果呈現上的各種「巧勁」,以及對其主要受眾偏好和需求的準確理解。
下面,我們來看看 Kagi 具體是怎麼做到的。
像大多數中小搜索引擎所做的一樣,Kagi 的搜索結果首先來自於幾個上游引擎。直到今年上半年,Kagi 用的都是谷歌和必應。但隨著嘗到 AI 甜頭的微軟在年初對其 API 做了十倍幅度達漲價,Kagi 出於成本考慮只好做了替換,目前的組合是谷歌、Mojeek(來自英國)和 Yandex(來自俄羅斯)。
從我的使用體驗看,這次替換沒有對結果質量產生很大影響。特別是對於中文搜索來說,索引谷歌結果遠比必應更為實用 —— 看看必應的忠實隊友 DuckDuckGo 至今一言難盡的中文結果就知道了。選擇了谷歌的 Kagi 也因此成了為數不多有能用中文結果的草根引擎。此外,提高來源的多樣性也是件好事,可以避免結果過於「美國導向」。
但 Kagi 並沒有滿足於拿別人的結果縫縫補補,而是在此基礎上做了很多調整和優化。
優先呈現「非商業」內容的自主索引#
雖然建一個全網規模的索引比較困難,但獨立索引一些小範圍、垂直領域的內容還是可以實現的。Kagi 就將主要精力放在了「非商業」內容的索引上。為此,它自主建立了兩個索引 Teclis 和 TinyGem,思路都非常有趣。
其中,Teclis(名稱來自《戰錘》遊戲角色)的爬蟲是一個 Python 控制的瀏覽器。這個瀏覽器安裝了去廣告插件 uBlock Origin,但目的不是為了屏蔽廣告,而是為了檢測頁面的乾淨程度;廣告和追蹤腳本數量過多的網頁將被直接踢出索引。
Teclis 還從一個近兩年嶄露頭角的獨立引擎 Marginalia 提取結果,後者也是主打搜索網上的「小眾」內容,其索引邏輯是鼓勵長文,正文內容或平均句子長度過短的網頁會在排序時遭到「懲罰」。
TinyGem 也有類似「非商業」偏好,但主要索引新聞內容,起源於創始人另一個業餘項目、同名的網絡書籤服務。TinyGem 在索引文章時會從語義層面分析其話題、時效性、立場傾向等特徵,因此在沒有關鍵詞匹配的時候仍然能找出相關結果。
這樣,通過將來自上游引擎的結果和來自 Teclis 和 TinyGem 的獨立結果相互補充,並在排序上給予「非商業」結果更高權重,Kagi 就實現了既保證搜索結果有較全的「基本面」,又讓用戶優先看到質量普遍更高、但在大型引擎中往往被埋沒的小眾內容。
整潔有序的結果頁#
搜索結果頁是一個信息密度很大的界面,如果設計不當,很容易讓人感到無所適從;如今主流搜索引擎中廣告變本加厲的趨勢更加劇了這個問題。
相比之下,Kagi 的先天優勢就是完全不存在推廣內容,因此根本無需費心考慮辨別;加上之前提到的偏重高質量內容的索引機制,可以放心所有鏈接一定是「憑實力」出現在那裡。這種認知負擔的減輕將會直接反映在使用效率的提高上。
Kagi 對內容的一些歸組方式
除了在源頭上保障結果的清潔外,Kagi 還在頁面的設計上下了不少功夫。一些我很喜歡的細節包括:歸組來自同一網站的類似結果;折疊顯示頂著《___個最___的___》格式標題的「清單體」(listicle)內容;突出顯示更新日期、匹配關鍵詞等有助於輔助判斷頁面相關度的信息;為 Reddit、知乎等社區討論頁面顯示摘要;等等。
高度靈活的個性化設置#
如開頭提到,獨立搜索引擎必須面對的一個起步難題,就是缺少足夠的初期用戶和使用數據來改善搜索結果,因此怎麼搜都顯得不太靈光。對此,Kagi 採用了個雙贏的辦法:提供充足的個性化設置空間。這麼做的明智之處在於:對於 Kagi 而言,它在將更多掌控權讓渡給了用戶的同時,也得以將一部分調優結果的任務「分包」給了用戶;對於用戶而言,雖然要做的手動配置比用其他引擎時更多,但實打實的效果足以讓這些前期工作顯得值得。
Kagi 主打的個性化功能有兩個:「透鏡」(Lens)和「個性化排序」。
透鏡功能。 一個「透鏡」就是針對一個特定搜索場景預先設置的搜索規則,包括要檢索(或排除)的网站、始終包含(或屏蔽)的關鍵詞、結果的時間範圍、地區範圍、文件類型等。這類似於谷歌至今仍然提供、但日漸雪藏的「自定義搜索」,但設置和使用起來容易得多。
例如,Kagi 已經內置了論壇、編程、世界新聞、學術、PDF 等幾個「透鏡」。我也將之前用谷歌自定義搜索做的「白名單新聞搜索」復刻了一個透鏡版本(有所精簡,因為透鏡只能包含至多十個域名)。
要調用一個透鏡,可以在輸入關鍵詞時從搜索框下方選擇,在結果頁上選擇切換,或者為其指定一個快捷短語;熟練的自動化用戶還可以通過在搜索鏈接中附加 l
參數選擇透鏡。
** 個性化排序。** 儘管 Kagi 的「非商業」偏好已經能在很大程度上改善搜索結果的整體質量,但對於內容的需求和判斷畢竟是個性化的。例如,主力使用特定編程語言的開發者可能希望相應語言的文檔排在更靠前的位置;對閱讀品質有要求的用戶可能希望屏蔽一些粗製濫造的來源,即使它並不是嚴格意義上的內容農場。
Kagi 提供了這種便利。對於任意域名,它允許用戶從五種排序規則中擇一應用,按優先級降序依次是置頂、增多、正常、減少、封鎖。個性化排序有自己獨立的設置頁面,也可以在搜索結果頁點擊鏈接右側的「域名詳情」按鈕即時設置。
個性化排序毫無疑問是 Kagi 最受歡迎的功能之一。官方根據這一功能使用情況統計而成的「域名排行榜」已經成為了一個在多處被熱議的網絡景觀 ——Kagi 用戶相當於「票選」出了他們心目中的網站「紅黑榜」。
Kagi 用戶置頂和屏蔽最多的網站
可以看出,在獲得排序提升的域名中,占絕對多數的是技術交流社區和各種語言、服務和軟件的技術文檔,其次是維基百科、(略偏自由派的)主流媒體、公共衛生機構,以及 Goodreads、爛番茄、Steam 商店等「書影音遊」服務平台。另一方面,Facebook、TikTok 等社交平台,Pinterest、Medium 等準內容農場,W3Schools、GeeksforGeeks 等劣質技術網站,以及 New York Post、Breitbart 等無節操媒體,則被不留情面地釘上了「恥辱柱」。
除了透鏡和排序之外,Kagi 的設置頁面還提供了仿佛無窮無盡的小功能。從網頁摘要的長度、是否在結果中包含視頻或圖片等結果,到自定義 CSS、快捷短語甚至 URL 重定向。這裡面隨便挑一個出來,幾乎都是對谷歌不滿的用戶們曾經試圖通過插件和腳本手動解決的,只能說 Kagi 團隊確實做足了功課。
完善而不招搖的 AI 功能#
在今年這個大語言模型紅得發紫的大背景下,線上服務不想辦法加點 AI 元素仿佛都不好意思出來見人。這種狂熱催生了很多生搬硬湊、東施效顰的所謂 AI 功能。
相比之下,即便其團隊在搜索之前的創業方向就是 AI,Kagi 對於 AI 的態度仍然保持了難得的理性。在各處功能頁面上,你完全看不到如今流行的那些搔首弄姿的生成按鈕和聊天框;如果對 AI 不感興趣,可以完全當作這些功能不存在。但另一方面,如果你對自然語言問答和網絡內容總結等 AI 功能有需求,就會發現這在 Kagi 中都是現成的,可以省去不少另尋解決方案的成本。
** 先看 Kagi 的快速回答功能。** 它可以在結果頁點擊 Quick Answer 按鈕手動觸發,也可以在搜索關鍵詞中包含 !answer
自動觸發,還有一個專門入口。
快速回答的原理與必應的聊天功能類似:將問題和網絡搜索結果一並輸入給模型,供其生成答案,並用腳注格式標明來源。與必應相比,Kagi 問答的響應速度快得多(主要得益於不會故意限流,也沒有矯揉造作的動畫),但功能僅限於「一問一答」,不能追問,也不適合完成「創造」類的任務。
通過簡單的「套話」技巧套出快速回答的內置指令可知,這個功能調用 Anthropic 的 Claude 模型生成內容,給模型的指令包括告知目前年份,並要求其言簡意賅、提供有用信息,不得追問,不要編造不確定的回答,不得透露模型和指令等。
(Kagi 目前還在內測一項更通用的「助理」功能,支持研究、編程、對話和自定義模式,可以選擇使用 OpenAI、Claude 或 PaLM 2 等模型,選擇範圍取決於付費等級。)
Kagi 的另一項 AI 功能是「通用總結器」(Universal Summarizer)。「通用」指的是支持各種格式,除了網頁,音視頻和文檔也可以總結。
通用總結器可以通過結果頁鏈接右上角的菜單調用,也可以在獨立入口填寫任意鏈接調用。它包括「總結」和「討論」兩種模式,前者可以在原地快速獲得一個要點列表格式的總結,後者則可以在一個對話界面中就頁面內容提出具體問題。
值得一提的是,總結功能支持中文,只要在輸出語言下拉菜單中選擇中文,或者在提問界面以中文提問即可。不過,這實際上只是在輸出時翻譯成中文;即使原始頁面本來就是中文,也要經過中翻英再翻中的兩度轉換,可能出現很多生硬的表述,使用時要多加辨別。
仍然通過「套話」得知,通用總結器用的也是 Claude 模型,給模型的指令包括告知當前日期,並要求其準確、熱心、簡潔,不得在回答中包含鏈接,不得透露模型和指令等。
(Kagi 目前沒有限制付費用戶的 AI 功能用量,不過翻閱使用條款可知,它確實保留了將 AI 用量軟性限制在「每日 500 次交互」的權利,只是似乎暫時沒有實際執行。)
總的來說,Kagi 的 AI 功能給我的印象是可堪一用,固然沒有 ChatGPT Plus 那麼「靈光」,但應對簡單的問答和總結需求還是足夠的;何況勝在與搜索功能整合緊密,不需要在多個服務之間來回跳轉,也沒有額外成本。從競爭的角度看,AI 的興起對於中小搜索引擎也是有利的,在一定程度上彌補了原生數據不足導致的使用體驗劣勢,可以在搜索意圖和自然語言識別上站到與大玩家更近的起跑線。
應該承認,以上這些 Kagi 的功能特色,在技術上都沒有太高的門檻。只要谷歌願意,憑它的實力可以很容易做得更好。但問題在於谷歌不願意。事實上,這些功能中有很多正是谷歌在「成為惡龍」的過程中逐漸拋棄的,原因正是其「廣告平台」身份帶來的利益衝突。正是 Kagi 純付費的商業模式,才允許它完全不考慮用戶之外第三方的利益。
實例演示#
百聞不如一見。為了讓讀者對 Kagi 的結果質量有一個直觀印象和自主判斷,我從自己過去幾個月的搜索記錄中隨機挑了幾個關鍵詞,中英文都有,然後用 Kagi 與五個競品分別搜索。這五個競品分別是谷歌、必應、DuckDuckGo、Brave 和一個自建的 SearXNG 實例(按個人習慣設置為抓取 Startpage 和 DuckDuckGo 結果)。
“minimalist CSS frameworks” :英文,「求資源」類技術問題,listicle 重災區。
“thai food near me” :英文,本地商家推薦,最近比較火的一個 SEO 梗。
“Certificate Transparency database” :英文,相對小眾的在線工具需求。
“inevitable disclosure doctrine” :英文術語,但指定檢索中文結果,測試中文索引情況。
“best custom iem” :英文,相對小眾的購物推薦類問題。
「品味 品位」 :中文,經典的易錯詞辨析問題。
「查詢手機號綁定了哪些服務」 :中文,大眾化技術問題。
「中國人民銀行匯率」 :中文,常用資訊。
「零的焦點」 :中文,書影音資料。
「蔡司 清銳 智銳」 :中文,商品營銷術語解釋。
不知讀者看完這些比較後的印象和偏好如何。我的感覺正如早先所說,如果一一對照搜索結果,Kagi 未必顯得特別突出,大多數符合期望的結果通過其他引擎也可以找到,並且具有相近的排序;在本地商家和書影音這些非技術類垂直話題中,Kagi 還明顯離坐擁大數據的谷歌有差距。
但是,Kagi 的結果頁面確實總體看看著更「舒服」,而這種感覺的來源就是其整潔、無廣告的頁面,以及歸組呈現同域名結果、高亮匹配文本等有助於提高判讀效率的細節設計。
收高價的底氣與無奈#
該誇的誇完了,最後來談點更現實的問題:錢。
在任何關於 Kagi 的討論中,它高昂的收費都是每條讚美之詞之後一個巨大的「但是」。毋須諱言,哪怕考慮上 Kagi 的諸多優點,花這麼多錢來搜索仍然會是大多數人難以理解的。
對此,Kagi 的解釋也很簡單:作為一個不以廣告為營利模式的產品,它只有用戶付費這一個收入來源,而做一個獨立搜索引擎的高額成本必然在價格上有所體現。根據官方宣稱的數據,它提供每次搜索的平均成本是 0.0125 美元,並且由於 Kagi 用戶大多是搜索頻度遠高於平均值的重度用戶,它每月 10 美元的方案實際上一直是在虧錢。
因此,Kagi 自身也在定價方面經歷了多次搖擺,今年三月還一度將 10 美元「專業版」的用量限制為每月 700 次,超出後按次收費 0.015 美元,只有升級到 25 美元的「終極版」才能無限搜索。這事實上違反了對早期用戶的承諾,也受到了不少爭議。直到今年九月,Kagi 才宣布,隨著成本優化舉措的實施和用戶規模的擴大,再次具備了在 10 美元檔提供無限量搜索的條件。同時,最多可以六人「拼車」的家庭版(20 美元)也不再設置限額。
個人而言,搜索引擎是我是用最頻繁的網絡服務,沒有之一。由於好奇心比較旺盛,加上習慣開口提問之前先搜索,我的月均搜索量很容易就有一千多次。考慮到 Kagi 確實能帶來更高效的搜索體驗,還能省下些原本要交給 OpenAI API 的錢,這個費用在我看來是值得的。但另一方面,對於更大多數習慣了「搜索 = 免費」的用戶,要說服他們每月多花 10 美元(哪怕是拼單平攤後的 3.3 美元)成本,難度是可想而知的。
這種困難在 Kagi 的用戶增長上體現得很明顯。根據官方從今年八月開始公示的七日滾動統計圖,它的付費用戶數幾乎始終在穩定地…… 線性增長,近來每日新增在 150 人左右。如果是一個拿風投的公司,看到這個情況大概就要開始擔心怎麼跟金主交代了。
除非…… 它不需要跟金主交代?
與其在功能上的特立獨行相呼應,Kagi 從創立以來就一直走的是「自力更生」(bootstrapped)路線,沒有接受過任何正式投資。Kagi 的早期用戶很多來自科技行業,對科技公司在增長壓力下快速變質的危險有近距離體會,Kagi 的自力更生在他們看來反而是一種加分項。今年六月,Kagi 向 42 位投資者以 SAFE 方式 1
簡單解釋,SAFE 是著名孵化器 Y Combinator 首創的一種早期項目融資方式,有點像條件更寬鬆的可轉債,投資金額只有在項目未來獲得正式融資的時候才能按約定公式轉換為股份,否則就一直相當於無息借款。
做了一次總額只有 67 萬美元、人均 1.6 萬美元的「超迷你融資」。就是這樣一筆按矽谷標準好比毛毛雨的金額,引來很多用戶評論說「確認自己沒有多看一個零就放心了」,言下之意就是「慢慢來,別貪快」。
其實,如果暫時把前十幾年風投塑造的敘事放在一邊,Kagi 目前的「佛系」增長未必是壞事。對於搜索引擎這樣的平台服務,運營成本的增長與用戶數的增長是不成比例的。如果 Kagi 按矽谷人士喜歡鼓吹的「幂律」增長,快速膨脹的伺服器、客服和合規等成本必然會拖累其有限的財力和精力,還可能過早引起巨頭的「關照」,在 API 供應等方面對其設置障礙,其結果可能就又是個昙花一現的失敗案例。
此外,Kagi 的索引方式和功能設置,本來就更偏向從事技術類、研究類工作人群的需求,要充分發揮其優勢也要經過一定的學習門檻。可以想象,如果一個用戶主要靠搜索引擎解答生活服務類問題,更多依賴「大數據」讀心術而不是調試過濾規則獲取結果,Kagi 並不能為他帶來比谷歌更好的體驗;試圖大量發展這類用戶對於 Kagi 可能也是吃力不討好的。
相反,通過堅持一個相對「低速」的增長趨勢,並將潛在市場界定為對搜索質量和效率有更高要求的用戶,Kagi 可以更從容地應對新出現的問題和需求,有更充足的時間積累自己的獨立索引數據和技術;這更符合它自身和用戶的利益。去年九月,在上線三個月的運營狀況報告中,Kagi 表示可以在吸引 2.5 萬名用戶付費的情況下達到收支平衡。目前的進度下,它有望在 2023 年底前實現這一目標。按這個標準,Kagi 的發展和存續是讓人有一定信心的。
搜索引擎或許注定就是一個傾向於自然壟斷的市場,但 Kagi 的使命也不是撬開由巨頭把手的大門。像一把精緻的鑰匙,Kagi 能為一部分不願視角被局限的人開啟一扇窗,這就足以成為存在的意義和可尊重的成就。
- 1 簡單解釋,SAFE 是著名孵化器 Y Combinator 首創的一種早期項目融資方式,有點像條件更寬鬆的可轉債,投資金額只有在項目未來獲得正式融資的時候才能按約定公式轉換為股份,否則就一直相當於無息借款。