阿里云CPU破局之戰(zhàn)
2015年1月,在業(yè)界一片議論紛紛卻又摸不著頭腦的猜疑聲中,亞馬遜公司以3.7億美元的驚人價格買下了一家以色列芯片設(shè)計公司——Annapurna Labs。
當(dāng)時,Annapurna Labs成立僅4年,尚未對外發(fā)布任何一款芯片產(chǎn)品,甚至對自己的研發(fā)進程也一直諱莫如深。業(yè)界只知道它們正在試圖研發(fā)一種新型芯片,試圖讓低功率的計算服務(wù)器和存儲服務(wù)器快速地運行數(shù)據(jù)。
沒人知道這家公司究竟要干什么,也沒人知道亞馬遜為什么要買它。
兩年之后的亞馬遜年度大會re:invent 2017上,當(dāng)亞馬遜首次正式向世界推出自研云服務(wù)器芯片項目Nitro、當(dāng)那片印有Annapurna logo的芯片出現(xiàn)在世人面前時,人們才恍然大悟。
把視野拉回到國內(nèi),中國云計算公司在自研芯片這條路上已走進世界前列。在2022云棲大會上,阿里云宣布自研芯片倚天710已大規(guī)模應(yīng)用,算力性價比大幅提升超30%,未來兩年阿里云20%的新增算力將使用自研CPU。
自研芯片,已是云廠商的必由之路。
一、從價格戰(zhàn)到技術(shù)戰(zhàn)
2015年,海外云計算市場的“價格戰(zhàn)”已經(jīng)近白熱狀態(tài)。
在云計算發(fā)展初期,各家所能提供的大多都是基于上游硬件資源的IaaS服務(wù),不同云廠商之間的產(chǎn)品差別不大。
管理經(jīng)濟學(xué)告訴我們,當(dāng)產(chǎn)品出現(xiàn)同質(zhì)化,價格戰(zhàn)無可避免。
在海外,亞馬遜(AWS)、谷歌、微軟紛紛入局,以價格戰(zhàn)跑馬圈地,搶奪更高的市場份額。AWS更是一度以每年降價12次的驚人節(jié)奏迅速擴張,市場競爭日益激烈。
國內(nèi)也不例外,自2015年起,阿里、騰訊等國內(nèi)巨頭紛紛加速擴張,市場多番鏖戰(zhàn)。
但企業(yè)想要健康發(fā)展,最終只能回歸技術(shù),回歸研發(fā),以性能更強,體驗更好的差異化產(chǎn)品打動用戶。
2018年,阿里宣布全資收購中國大陸唯一的自主嵌入式CPU IP Core公司——中天微,并在隨后宣布將達摩院芯片研發(fā)團隊與中天微團隊合并,成立平頭哥半導(dǎo)體。
2019年,阿里云首款自研服務(wù)器AI芯片含光800正式面世。
歷史總是相似的。
近年間,以AI機器學(xué)習(xí)、大規(guī)模視頻處理、大規(guī)模數(shù)據(jù)處理等為首的高負(fù)載云計算應(yīng)用日益增多,其場景運算強度大、高并發(fā)、應(yīng)用復(fù)雜,對云計算廠商的服務(wù)質(zhì)量提出了前所未有的極高要求,并倒逼服務(wù)器芯片加速發(fā)展。
尤其是在“云原生”的概念提出后——傳統(tǒng)IT時代的云計算更多是為了適配當(dāng)前的IT架構(gòu),進而適配各類應(yīng)用??稍谠圃鷷r代里,多款應(yīng)用本身就是“長在云上”的——如何根據(jù)這些云原生應(yīng)用的需求打造更適宜其生長的土壤,成了云廠商技術(shù)變革的頭等大事。
“云土壤”的改造既涉及軟件、架構(gòu)、操作系統(tǒng),又涉及網(wǎng)絡(luò)、服務(wù)器、計算板卡,更會涉及最為核心的算力來源——芯片。
第三方芯片公司固然也在跟隨技術(shù)進步不斷推出新產(chǎn)品,然而,作為最熟悉自身業(yè)務(wù)的人,云計算廠商最知道自己的業(yè)務(wù)有什么差異化的需求,什么樣的芯片才能做到特定性能效率的最大化。
正如阿里云彈性計算產(chǎn)品線負(fù)責(zé)人張獻濤所言,“云計算做到一定規(guī)模的時候,你發(fā)現(xiàn)(自研芯片)非做不可。”
當(dāng)然,云計算中涉及的芯片種類繁多,各家側(cè)重點也有所不同。
比如,阿里的含光800、谷歌的TPU、以及芯片廠商英特爾的Habana Gaudi 2、英偉達的H100等,都是側(cè)重于人工智能應(yīng)用的計算芯片。此外,近年間還有DPU、IPU、CIPU等新型數(shù)據(jù)中心處理器。
云計算芯片市場的老玩家——CPU自然也不會缺席。
近20年來,云服務(wù)器CPU市場長年被英特爾的x86架構(gòu)統(tǒng)治,其市場份額甚至一度超過90%。
CPU架構(gòu)設(shè)計難度大、生態(tài)壁壘高,一直是芯片產(chǎn)業(yè)的集大成之作。
然而,哪里有壟斷,哪里就有挑戰(zhàn)者。從2008年開始,ARM就持續(xù)對服務(wù)器芯片市場發(fā)動了進攻,惠普、AMD、博通、高通等芯片設(shè)計公司都曾陸續(xù)推出相關(guān)產(chǎn)品,可惜大多折戟。
然而,市場并未因一時的失利而失去信心。2018年,ARM發(fā)布ARM Neoverse計算平臺,瞄準(zhǔn)了云計算服務(wù)器、HPC、AI與機器學(xué)習(xí)加速這幾大場景。
隨后幾年里,AWS推出Graviton系列服務(wù)器CPU;Ampere Computing推出80核Ampere Altra和128核Ampere Altra Max服務(wù)器CPU;國內(nèi)廠商飛騰推出多款服務(wù)器CPU。
作為國內(nèi)云計算產(chǎn)業(yè)的領(lǐng)頭玩家,阿里云也在2021年的云棲大會上推出了首款自研云原生處理器CPU——倚天710。
這是阿里第一顆“為云而生”的CPU,容納了高達600億個晶體管。它基于ARM v9架構(gòu)打造,擁有128核,并在全球權(quán)威CPU基準(zhǔn)測試集SPECint 2017上拿到了440分的超高成績,超出業(yè)界標(biāo)桿20%。
而在今年的2022云棲大會現(xiàn)場,阿里云智能總裁張建鋒更是進一步宣布,經(jīng)過一年的業(yè)務(wù)驗證后,倚天710已經(jīng)完成大規(guī)模部署,不僅支撐了阿里巴巴內(nèi)部核心電商業(yè)務(wù),還開始對匯量科技等科學(xué)研究、智能手機和互聯(lián)網(wǎng)等多家企業(yè)提供服務(wù)。
據(jù)張建鋒介紹,基于倚天710的云計算實例在數(shù)據(jù)庫、大數(shù)據(jù)、視頻編解碼、AI推理等核心場景中的性價比提升30%以上,單位算力功耗(耗電量)降低了60%以上。
二、拿雙11“練手”:“奢侈”的成長史
倚天710去年完成流片,今年就已完成大規(guī)模部署,并能夠?qū)ν馓峁┓?wù),其速度之快,在動輒以3-5年為迭代周期的芯片行業(yè)可謂驚人。
這是所有云廠商自研芯片都具備的優(yōu)勢——不用等待漫長的反饋周期。
據(jù)張獻濤介紹,在傳統(tǒng)的云計算廠商與第三方芯片供應(yīng)商合作的過程中,一個新的性能需求不僅要經(jīng)過雙方的多番溝通驗證,還要少則三四年、多則六七年才能變成現(xiàn)實。
“高端領(lǐng)域的技術(shù)日新月異,四年可能已經(jīng)天翻地覆了?!睆埆I濤感嘆道。
由于英特爾等第三方芯片供應(yīng)商的產(chǎn)品往往是通用的,需要適用于不同的用戶的不同場景,其因此需要在不同的條件下反復(fù)測試。
但對于云廠商自研的芯片來說,只要確保這塊芯片在自家數(shù)據(jù)中心里穩(wěn)定運行即可,無須讓它適配市面上的其他企業(yè)。
而且,自家研發(fā)的芯片還有一項令人艷羨不已的“奢侈”享受。
據(jù)張獻濤回憶,倚天710在去年流片回來后不久,就迎來了阿里一年一度的“雙11”大促。
“雙11”這場全民購物狂歡,也是阿里IT一年一度的攻堅之戰(zhàn),其流量、強度、并發(fā)度都是全球頂尖級別的難度。
剛剛從襁褓中誕生的倚天710,就這樣被硬生生地推到了“雙11”前線,由芯片工程師團隊利用“雙11”豐富的數(shù)據(jù)庫、存儲、AI計算等高強度場景進行全面“地獄級”壓力測試,有如武俠小說里七八個不世出的絕頂高手將畢生所學(xué)全部傳授給一個剛剛會走路的小孩,這小孩的成長速度絕不可與常人同日而語。
傳統(tǒng)來說,客戶對芯片樣片進行部署、測試、收集、反饋的周期長達半年甚至一年,芯片廠需要再根據(jù)客戶反饋進行重新的設(shè)計與改版。
而對于既是客戶,又是供應(yīng)商的云計算廠商而言,這往往就是發(fā)起一個跨部門會議的事情。
當(dāng)前,阿里云上已經(jīng)有百萬臺服務(wù)器,支撐了各行各業(yè)不同的應(yīng)用場景,其復(fù)雜、豐富程度成為倚天710的絕佳養(yǎng)料,能夠讓芯片團隊在最短時間內(nèi)得到最全面的反饋數(shù)據(jù)。
“我們在今年春節(jié)前就已經(jīng)知道這顆芯片是靠譜的。前期的場景壓測給了我們很大的信心?!睆埆I濤說。
三、從1到100,生態(tài)破局之戰(zhàn)
正如上文所言,CPU設(shè)計難度大、生態(tài)壁壘高,一直是芯片產(chǎn)業(yè)的集大成之作。
“設(shè)計難度大”比較好理解,但實際上,“生態(tài)壁壘高”才是困住CPU的真正阻礙。
通俗來講,就是做一個CPU出來,沒有那么難;讓大家都能用好這個CPU,很難。
就像安卓的軟件不能在iOS平臺運行,一直以來,應(yīng)用、操作系統(tǒng)、芯片架構(gòu)都是高度綁定的。在電腦、手機等消費電子領(lǐng)域,更換芯片架構(gòu)是“傷筋動骨”的大手術(shù),需要芯片廠商、系統(tǒng)廠商、應(yīng)用開發(fā)者的多方面緊密協(xié)作,難度很高。
然而在云計算領(lǐng)域,自研芯片讓問題變得簡單了一些。
早在2007年,阿里就開始啟動了“飛天”云操作系統(tǒng)的自研。隨后,阿里云又陸續(xù)推出了解決虛擬化性能損耗問題的“神龍”架構(gòu)服務(wù)器、“盤古”分布式存儲系統(tǒng)、基于軟硬一體的“洛神”云網(wǎng)絡(luò)系統(tǒng)、“磐久”液冷集裝箱、開源服務(wù)器操作系統(tǒng)“龍蜥”、云原生數(shù)據(jù)庫PolarDB、AI統(tǒng)一平臺靈杰……
而在芯片領(lǐng)域,阿里云也陸續(xù)推出了云基礎(chǔ)設(shè)施處理器CIPU、云計算AI推理芯片“含光”系列、RISC-V處理器“玄鐵”系列、RFID芯片“羽陣”系列、服務(wù)器CPU“倚天”系列……
這些阿里的自研技術(shù)產(chǎn)品,從軟件到硬件,幾乎覆蓋了云計算的整個鏈路環(huán)節(jié),讓阿里將改換芯片架構(gòu)的“傷筋動骨”環(huán)節(jié)所遇到的阻力盡可能最小化。
對于用戶而言,從普通實例遷移到倚天710云實例上的應(yīng)用,則更是做到了“零代碼”遷移。用戶僅需要做簡單的重新部署/編譯,便能輕松實現(xiàn)近乎無感的平滑遷移。
但是,用戶為什么要花費這些時間和精力去遷移到一個全新的架構(gòu)里呢?
因為自研芯片所帶來的性能提升與成本下降極其顯著。
張建鋒透露,當(dāng)前,倚天710云實例已在多家互聯(lián)網(wǎng)科技公司大規(guī)模應(yīng)用,覆蓋了材料研發(fā)、廣告推理、語音推理、電商交易等多個領(lǐng)域。
其視頻編碼應(yīng)用性能提升80%、數(shù)據(jù)庫性能提升30%、AI推理性能提高了70%。最可貴的是,其算力性價比提升了超過超30%,單位算力功耗降低了60%——真可謂“加量不加價”了。
比如,匯量科技的廣告推理精排業(yè)務(wù)性能和內(nèi)網(wǎng)帶寬上均實現(xiàn)了提升,綜合性價比提升40%以上。
匯量科技首席人工智能官朱小強就曾表示,隨著在線推理模型的不斷升級,匯量科技對CPU性能和內(nèi)網(wǎng)帶寬要求更高,倚天710實例很好地滿足了公司業(yè)務(wù)升級的新需求,做到了降本增效。
在2022云棲大會上,張建鋒進一步宣布,未來兩年,阿里云有20%的新增算力將來自阿里云的自研芯片。
四、一云多芯,重塑云計算產(chǎn)業(yè)
早在去年,阿里云就宣布了其“一云多芯”的核心戰(zhàn)略——以飛天操作系統(tǒng)為核心,全面向下兼容x86、ARM、RISC-V等多種芯片架構(gòu),以及倚天、AMD、Ampere等多種CPU,并將其封裝成直接面向用戶的標(biāo)準(zhǔn)算力,既解決了CPU不兼容導(dǎo)致的云和軟件開發(fā)問題,又讓更多種類的芯片進入云計算生態(tài)。
今年6月,阿里云正式發(fā)布了CIPU(Cloud infrastructure Processing Units)。這是一套阿里云歷時7年所打造的云數(shù)據(jù)中心專用處理器,未來將替代CPU成為云計算的管理、加速計算、存儲和網(wǎng)絡(luò)資源中心。
在本次云棲大會上,阿里云首次展現(xiàn)了“飛天+CIPU+CPU”的組合成果。據(jù)阿里透露,這一組合性能表現(xiàn)普遍優(yōu)于業(yè)內(nèi)同類產(chǎn)品,性價比可提升30%以上。
這不僅是阿里在CIPU、倚天710等芯片上取得的成果,更是過去十幾年間年,阿里云在自研操作系統(tǒng)、數(shù)據(jù)庫、存儲、網(wǎng)絡(luò)和芯片等軟硬件技術(shù)上取得的協(xié)同成果。
冰凍三尺,非一日之寒。阿里巴巴集團CFO武衛(wèi)曾在全球投資者大會上透露,這幾年,阿里在技術(shù)和研發(fā)上的投入每年都超過1000億人民幣。
當(dāng)前,從軟件到硬件,從操作系統(tǒng)到計算架構(gòu),從上層應(yīng)用到底層架構(gòu),以人工智能、虛擬現(xiàn)實等為代表的新興行業(yè)應(yīng)用正倒逼云計算廠商不斷加大技術(shù)自研力度,力圖在如今的重要節(jié)點,抓住新一代云計算技術(shù)標(biāo)準(zhǔn)定義,得到重塑云計算產(chǎn)業(yè)的話語權(quán)。
如今,阿里云的野心已不僅僅是推出一款芯片、一個架構(gòu),更是秉承著“一云多芯”的戰(zhàn)略指導(dǎo),徹底改革傳統(tǒng)的以CPU為中心的云計算體系,憑借著“飛天+CIPU+豐富算力來源”的新架構(gòu),將云計算產(chǎn)業(yè)推向新時代,從云效率最大化出發(fā),重構(gòu)數(shù)據(jù)中心,構(gòu)建軟硬一體的“新一代云計算體系”。
張建鋒在云棲大會上表示,當(dāng)前以云計算為核心的新型計算體系,正在帶來三大變革:
1、云重構(gòu)了整個IT硬件體系,數(shù)據(jù)中心、芯片、服務(wù)器等產(chǎn)業(yè)鏈發(fā)生深刻變化;
2、軟件研發(fā)范式發(fā)生深刻變革,Serverless、低代碼、AI大模型開源等趨勢,大幅提升軟件生產(chǎn)效率;
3、云和端加速融合,算力從端轉(zhuǎn)移上云,未來萬物皆是計算機。
在這個全新的云計算時代里,芯片、操作系統(tǒng)、上層應(yīng)用的原生融合已是大勢所趨。倚天710的推出與成功大規(guī)模部署應(yīng)用,既是這條技術(shù)變革道路之上的里程碑,又僅僅只是萬里長征的一個開始。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




