如果你從事 AI 相關行業,對超大規模非結構化數據的處理有興趣,那么你應該不會對 Zilliz 這家年輕的創業公司,以及它所開創的“向量數據庫” (vector database) 感到陌生。
在全球經濟整體陷入衰退、科技公司裁員收縮消息頻傳的最近兩年里,Zilliz 逆勢創造了融資奇跡,先后完成B、B+ 兩輪共計 1.03 億美元融資。其中 B+ 輪高達 6000 萬美元,由沙特阿美旗下多元化成長基金 P7 Ventures 領投,之前的 B 輪 4300萬美元 則由高瓴創投領投。
Zilliz 的名字在社會上并非家喻戶曉。然而在數據庫領域,這家全球總部位于美國硅谷的創業公司,卻正炙手可熱,被行業人士和投資者認為是“下一家” Snowflake/Databrick。
由于近十年來基于深度學習的人工智能技術發展迅速,復雜數據的量級正在以驚人的速度增長。問題在于這些非結構化數據,類型可能包括文檔、圖像、視頻、音頻,可能有著成千甚至上萬個維度,讓傳統數據庫捉襟見肘。
向量數據庫技術應運而生:通過機器學習手段將非結構化數據表示為向量(一組數字),再結合其他先進的數據庫(包括傳統數據庫)技術,向量數據庫能夠讓使用者更高效地處理非結構化的復雜數據,從中提取價值,驅動新業務和產品,為老業務帶來用戶體驗提升。
而作為向量數據庫技術的發明公司,Zilliz 的開源向量數據庫項目 Milvus 下載量在上個月剛剛突破了150萬,已經獲得了超過 1000 家企業用戶的支持,并且得到包括eBay、Shopee、宜家、沃爾瑪等頭部電商,以及騰訊、快手、Intuit 等知名科技公司的青睞。
這些巨頭公司正在使用 Zilliz 的產品更好地挖掘和使用超大規模高維度非結構化復雜數據,提升其核心技術、產品和平臺的服務能力和盈利水平。
在 Milvus、Towhee 等優秀開源項目的基礎之上,Zilliz 于近期正式推出了 Zilliz Cloud,一款高效、穩定、安全的向量數據庫全托管云服務產品,正式開啟了這家 5 歲年輕公司在商業化進程上的全新篇章。
就 Zilliz Cloud 以及向量數據庫市場的發展,硅星人近日對 Zilliz 公司創始人兼 CEO、Linux 基金會旗下 AI & Data 子基金會董事 Charles Xie(星爵)進行了深度采訪。
Zilliz Cloud 是一個全托管、高性能、便于規模化的向量數據庫即服務,可以被理解為云版本的 Milvus。星爵表示,自從7月底 Zilliz Cloud 發布以來,已經有很多企業申請注冊參與了首批小范圍測試。而這些企業用戶當中,不乏正為“黑五”購物節摩拳擦掌的頭部電商企業。
據了解,目前 Zilliz Cloud 基于亞馬遜 AWS 服務。星爵預計到今年11月會正式開放公開版本,對所有企業或個人用戶開放使用,并且會在接下來逐步接入谷歌 GCP、微軟 Azure 等公有云平臺,預計在明年上半年提供完整的多云/跨云方案。
談到為什么從一家明星開源軟件公司轉型云服務,星爵表示,Zilliz 首先仍然是一家開源的基礎軟件公司,但放眼全球同類型公司的經歷,會發現云服務和開源的商業邏輯吻合度非常高,用開源做社區引流、培養用戶習慣,是一條非常有機的發展路徑。
為了能夠將向量數據庫這一前沿技術進一步普及化,Zilliz 決定開發云端向量數據庫服務。盡管 Zilliz Cloud 的成本很高,實現盈虧平衡需要更長的時間,星爵仍然對做云服務這件事十分篤定。
他的信心來自于美國市場客戶較強的付費意識和能力。在美國,云產品的溢價能力很高。以 MongoDB、Databricks 等知名數據庫公司為例,其服務的溢價水平甚至能夠達到底層公有云硬件價格的5-10倍。
做云服務的固定成本,比如元數據、安全認證、消息隊列等,成本確實不低。但是原則上用戶越多,固定成本的攤薄效果越好。“我們已經做好了準備,不可能一上來就 break even(取得收支平衡),可能需要幾年的時間,實現整體盈利可能更晚,”星爵表示,“對于我們來說,找到增長和營利的平衡點更重要。同時,在技術研發和產品迭代上我們會繼續投入更多資源。”
對于 Zilliz 而言,比其他創業公司更早、更多進行戰略級投資,早已不是新鮮事。除了近期推出的云服務之外,Zilliz 還是整個向量數據庫領域最早斥巨資成立學術研究部門的公司。目前公司的工程團隊占總員工 70-80%,而學術研究型員工在工程團隊的比例也不小。在過去兩年里,Zilliz 在向量搜索方面研究成果斐然,在頂級學術會議 NeurIPS 的 BigANN 全球挑戰賽當中奪冠,研究論文連續兩年被數據庫頂會 SIGMOD 和 VLDB 錄用, 在向量搜索領域引起了極大關注。
星爵表示,公司在還很稚嫩的時候就投身學術研究,走上這條路實屬“被迫無奈”。
他告訴硅星人,公司內部準備做向量數據庫的時候大約在 2018 下半年,在當時向量數據庫還是一個全新的數據庫品類,和傳統數據庫有巨大的技術差別,帶來了很多全新的挑戰,學術界也沒有任何可以參考借鑒的研究。
“大家能看到的計算機科學領域的創業,很多都是在學術界已有的成果上進一步發展,在工程方面做得更好更快。然而對我們來說,不光是工業界,連學術界都還沒有探索(向量數據庫這一方向)。所以當時,我們感覺就像走在一個荒漠無人區里,每走一步都是做學術界和工業界還沒人做過的事情。”
正因此,Zilliz 不得不從頭開始打造了一支學術研究隊伍,“跟微軟研究院,或者 AT&T Labs——我們當然沒法比。我們確實是小公司,我們在無人區披荊斬棘走出來的路形成了這樣一條今天所謂的‘賽道’,”星爵對硅星人說道,
“我們公開發表論文背后其實還有一點私心。那就是通過做學術研究,去進一步影響學術界和工業界的人,吸引他們加入到向量數據庫這個事業里面來。光靠一家企業的努力,是很難取得行業突破的,只有更多人加入才有多樣性,整個行業才能更快產生更多技術突破,實現更長遠的發展。”
這也是為什么他不把同行看做競爭對手,而是把逐漸開始熱鬧起來的向量數據庫賽道,評價為“眾人拾柴火焰高”。
據統計,自從第一款向量數據庫開源項目 Milvus 問世并且獲得用戶好評以來,市場上做向量數據庫相關技術的公司越來越多,只從去年開始算,都出現了七、八家相關公司,遍布北美、日本、歐洲等國家和區域。
在星爵看來,更多同行的出現,至少在目前階段還是一件很值得開心的事情。因為這種熱潮恰好證明了向量數據庫是下一代人工智能技術的基礎設施之一,自己的公司創造了一條正確的賽道,“如果你做的市場沒有別人競爭,那很有可能就是你自己的方向錯了。”
非結構化數據是一個多重交叉的領域,本身是數據庫技術,同時也和整個 AI 技術大發展所產生的各種不同工業場景有著極強的關聯。包括互聯網三大核心業務“搜廣推”(搜索、廣告、推薦),以及安防、藥物發現等市場規模極大,且增長率逐年提升的關鍵行業,對于非結構化數據的使用都在快速提升。
在星爵看來,雖然今天“向量數據庫”的市場只有一年幾億美元,到 2030 年,整個非結構化數據相關的技術市場規模足以達到百億美元。
至少在向量數據庫這一賽道上,Zilliz 至今保持著技術和產品上的先發優勢。由于該公司很早就做了開源項目,現在也推出了云原生產品,并且能夠確保性能、查詢延遲以及高吞吐的服務,可以水平擴展到處理十億甚至百億級別規模的數據——其他向量數據庫公司暫時還未具備這個能力。更重要的是,Zilliz 已經在上千家企業用戶的幫助下對產品進行了打磨,提高產品的可用性。
“總體上,我們估計比同行領先至少兩到三年,”星爵表示。
從產品下載量來看,Milvus 項目開源三年多,到今年 7 月剛達到 100 萬下載,到上個月就超過了 150萬,預計到年底就會超過 200 萬,并且增速在明年仍將進一步提升;從公司團隊建設的角度,Zilliz 內部的行業統計數據顯示,公司研發和工程師團隊總人數比目前所有同行加起來還要多;而從資本層面,星爵認為 Zilliz 截至目前的總融資水平,比所有同行實際融資規模相加還多一倍左右。
由于技術、經濟、社會的高速發展,產生的數據越來越多,讓數據庫行業整體保持著一種“長青”的狀態。以甲骨文為代表的傳統關系型數據庫行業公司,從上世紀 70 年代生根發芽,直到今天并沒有被取代,仍然保持著快速演進。
究其根本,人類每時每刻都在創造新的數據,而且不僅創造速度變快、數量變多,數據的類型也在變得更加復雜和非結構化。
“比如對于自然界,我們的觀測手段越來越多。再比如現在還有元宇宙這個概念的存在,我們可以隨意創造成百上千個平行世界——數據量更加爆發了,”星爵表示,在數據處理,更快、更大、更強的需求將會是永恒的,從而促使數據庫技術不斷迭代發展。”
“甚至可以說,在未來 50 年以后,傳統的關系型數據庫仍然存在,并且仍在繼續迭代。而對于我們這樣的非結構化的數據平臺,我認為在未來 20 年里會迎來一個巨大的發展。只要人類還在拓展認知的邊界,數據庫技術的創新就永不停歇。”
*注:封面圖來自于Zilliz官網,版權屬于原作者。如果不同意使用,請盡快聯系我們,我們會立即刪除。