大模型帶火數(shù)據(jù)訓(xùn)練 AI原生向量數(shù)據(jù)庫趨熱
大模型正在帶火多個細分賽道。
今日下午,騰訊云發(fā)布AI原生(AI Native)向量數(shù)據(jù)庫Tencent Cloud VectorDB,該數(shù)據(jù)庫面向大模型場景,8月將在騰訊云官網(wǎng)正式上線。
據(jù)介紹,向量數(shù)據(jù)庫是專門用來存儲和查詢向量的數(shù)據(jù)庫,利用這類數(shù)據(jù)庫來存儲和查詢數(shù)據(jù),可以極大提升效率和降低成本。
騰訊云數(shù)據(jù)庫副總經(jīng)理羅云稱,騰訊云發(fā)布的AI原生向量數(shù)據(jù)庫,面向大模型訓(xùn)練、推理和知識庫補充等場景,并且在接入層、計算層、存儲層均已實現(xiàn)了全面AI化。
大模型正在加速進入各行業(yè),但這些模型往往包含數(shù)十億甚至更高參數(shù),參數(shù)規(guī)模較大訓(xùn)練成本高昂,并且都是預(yù)訓(xùn)練模型,對于訓(xùn)練截止日之后發(fā)生的事情一無所知。
根據(jù)騰訊給出的數(shù)據(jù),騰訊云向量數(shù)據(jù)庫用于大模型預(yù)訓(xùn)練數(shù)據(jù)的分類、去重和清洗,相比傳統(tǒng)方式可以實現(xiàn)10倍效率的提升,如果將向量數(shù)據(jù)庫作為外部知識庫用于模型推理,則可以將成本降低2-4個數(shù)量級。企業(yè)原先接入一個大模型需要花1個月左右時間,使用向量數(shù)據(jù)庫后,3天時間即可完成,極大降低了接入成本。
與騰訊的大模型發(fā)展路徑類似,本次面向大模型場景的向量數(shù)據(jù)庫,也是首先在騰訊生態(tài)內(nèi)產(chǎn)品得到應(yīng)用。
據(jù)騰訊PCG大數(shù)據(jù)平臺部搜索推薦Senior Tech Lead鄭偉介紹,騰訊云向量數(shù)據(jù)庫目前已經(jīng)應(yīng)用在了騰訊視頻、QQ瀏覽器、QQ音樂等30多款騰訊生態(tài)產(chǎn)品中,能有效助力產(chǎn)品提升運營效率。
數(shù)據(jù)顯示,使用騰訊云向量數(shù)據(jù)庫后,QQ音樂人均聽歌時長提升3.2%、騰訊視頻有效曝光人均時長提升1.74%、QQ瀏覽器成本降低37.9%。
在大模型的數(shù)據(jù)訓(xùn)練需求催化之下,向量數(shù)據(jù)庫概念于今年4月開始走紅市場。
首先,今年4月多家向量數(shù)據(jù)庫創(chuàng)業(yè)公司獲大額新融資,引發(fā)市場熱議。據(jù)華福證券梳理,隨著大模型帶來的應(yīng)用需求提升,4月以來多家海外知名向量數(shù)據(jù)庫創(chuàng)業(yè)企業(yè)獲得融資。
4月6日Chroma獲1800萬美元種子輪融資;
4月19日Qdrant獲750萬美元種子輪融資;
4月22日,向量數(shù)據(jù)庫平臺Weaviate宣布獲得5000萬美元(約3.5億元)B輪融資,由Index Ventures領(lǐng)投,Battery Ventures等跟投;
4月28日,向量數(shù)據(jù)庫平臺Pinecone宣布獲得1億美元(約7億元)B輪融資,由Andreessen Horowitz領(lǐng)投,ICONIQ Growth等跟投。
行情方面,星環(huán)科技、北交所云創(chuàng)數(shù)據(jù)等公司股價連續(xù)異動,其中云創(chuàng)數(shù)據(jù)自底部以來股價已接近翻倍。
騰訊向量數(shù)據(jù)庫產(chǎn)品的醞釀,幾乎與市場時間同步。
羅云在《科創(chuàng)板日報》等媒體采訪時表示,3月份,在看到向量數(shù)據(jù)庫能夠支持大模型做信息召回、彌補沒有長期記憶等問題時,當時團隊就判斷,基于騰訊的積累對外單獨提供一個更大規(guī)模企業(yè)級的向量數(shù)據(jù)庫,有優(yōu)勢,市場也有需求。
東北證券指出,向量數(shù)據(jù)庫市場空間巨大,目前處于從0-1階段,預(yù)測到2030年,全球向量數(shù)據(jù)庫市場規(guī)模有望達到500億美元,國內(nèi)向量數(shù)據(jù)庫市場規(guī)模有望超過600億人民幣。
商業(yè)模式上,羅云表示,騰訊云的向量數(shù)據(jù)庫會作為一個單獨的產(chǎn)品在官網(wǎng)售賣,也可能會與其他解決方案和產(chǎn)品打包一起售賣,兩種模式并不沖突。
一定程度上,騰訊云向量數(shù)據(jù)庫的推出,是跟隨大模型的浪潮,細分行業(yè)未來的發(fā)展路徑也將受制于此。
羅云表示,向量數(shù)據(jù)庫的能力已經(jīng)能夠適應(yīng)客戶訴求了,核心卡點就在于,如何去用好AI,國內(nèi)大模型的發(fā)展,其實都還有一個時間周期,外部的市場環(huán)境會導(dǎo)致向量數(shù)據(jù)庫的大規(guī)模發(fā)展應(yīng)用還沒有那么快。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

