阿里云CPU破局之戰(zhàn)
2015年1月,在業(yè)界一片議論紛紛卻又摸不著頭腦的猜疑聲中,亞馬遜公司以3.7億美元的驚人價(jià)格買下了一家以色列芯片設(shè)計(jì)公司——Annapurna Labs。
當(dāng)時(shí),Annapurna Labs成立僅4年,尚未對(duì)外發(fā)布任何一款芯片產(chǎn)品,甚至對(duì)自己的研發(fā)進(jìn)程也一直諱莫如深。業(yè)界只知道它們正在試圖研發(fā)一種新型芯片,試圖讓低功率的計(jì)算服務(wù)器和存儲(chǔ)服務(wù)器快速地運(yùn)行數(shù)據(jù)。
沒人知道這家公司究竟要干什么,也沒人知道亞馬遜為什么要買它。
兩年之后的亞馬遜年度大會(huì)re:invent 2017上,當(dāng)亞馬遜首次正式向世界推出自研云服務(wù)器芯片項(xiàng)目Nitro、當(dāng)那片印有Annapurna logo的芯片出現(xiàn)在世人面前時(shí),人們才恍然大悟。
把視野拉回到國內(nèi),中國云計(jì)算公司在自研芯片這條路上已走進(jìn)世界前列。在2022云棲大會(huì)上,阿里云宣布自研芯片倚天710已大規(guī)模應(yīng)用,算力性價(jià)比大幅提升超30%,未來兩年阿里云20%的新增算力將使用自研CPU。
自研芯片,已是云廠商的必由之路。
一、從價(jià)格戰(zhàn)到技術(shù)戰(zhàn)
2015年,海外云計(jì)算市場(chǎng)的“價(jià)格戰(zhàn)”已經(jīng)近白熱狀態(tài)。
在云計(jì)算發(fā)展初期,各家所能提供的大多都是基于上游硬件資源的IaaS服務(wù),不同云廠商之間的產(chǎn)品差別不大。
管理經(jīng)濟(jì)學(xué)告訴我們,當(dāng)產(chǎn)品出現(xiàn)同質(zhì)化,價(jià)格戰(zhàn)無可避免。
在海外,亞馬遜(AWS)、谷歌、微軟紛紛入局,以價(jià)格戰(zhàn)跑馬圈地,搶奪更高的市場(chǎng)份額。AWS更是一度以每年降價(jià)12次的驚人節(jié)奏迅速擴(kuò)張,市場(chǎng)競爭日益激烈。
國內(nèi)也不例外,自2015年起,阿里、騰訊等國內(nèi)巨頭紛紛加速擴(kuò)張,市場(chǎng)多番鏖戰(zhàn)。
但企業(yè)想要健康發(fā)展,最終只能回歸技術(shù),回歸研發(fā),以性能更強(qiáng),體驗(yàn)更好的差異化產(chǎn)品打動(dòng)用戶。
2018年,阿里宣布全資收購中國大陸唯一的自主嵌入式CPU IP Core公司——中天微,并在隨后宣布將達(dá)摩院芯片研發(fā)團(tuán)隊(duì)與中天微團(tuán)隊(duì)合并,成立平頭哥半導(dǎo)體。
2019年,阿里云首款自研服務(wù)器AI芯片含光800正式面世。
歷史總是相似的。
近年間,以AI機(jī)器學(xué)習(xí)、大規(guī)模視頻處理、大規(guī)模數(shù)據(jù)處理等為首的高負(fù)載云計(jì)算應(yīng)用日益增多,其場(chǎng)景運(yùn)算強(qiáng)度大、高并發(fā)、應(yīng)用復(fù)雜,對(duì)云計(jì)算廠商的服務(wù)質(zhì)量提出了前所未有的極高要求,并倒逼服務(wù)器芯片加速發(fā)展。
尤其是在“云原生”的概念提出后——傳統(tǒng)IT時(shí)代的云計(jì)算更多是為了適配當(dāng)前的IT架構(gòu),進(jìn)而適配各類應(yīng)用??稍谠圃鷷r(shí)代里,多款應(yīng)用本身就是“長在云上”的——如何根據(jù)這些云原生應(yīng)用的需求打造更適宜其生長的土壤,成了云廠商技術(shù)變革的頭等大事。
“云土壤”的改造既涉及軟件、架構(gòu)、操作系統(tǒng),又涉及網(wǎng)絡(luò)、服務(wù)器、計(jì)算板卡,更會(huì)涉及最為核心的算力來源——芯片。
第三方芯片公司固然也在跟隨技術(shù)進(jìn)步不斷推出新產(chǎn)品,然而,作為最熟悉自身業(yè)務(wù)的人,云計(jì)算廠商最知道自己的業(yè)務(wù)有什么差異化的需求,什么樣的芯片才能做到特定性能效率的最大化。
正如阿里云彈性計(jì)算產(chǎn)品線負(fù)責(zé)人張獻(xiàn)濤所言,“云計(jì)算做到一定規(guī)模的時(shí)候,你發(fā)現(xiàn)(自研芯片)非做不可?!?/span>
當(dāng)然,云計(jì)算中涉及的芯片種類繁多,各家側(cè)重點(diǎn)也有所不同。
比如,阿里的含光800、谷歌的TPU、以及芯片廠商英特爾的Habana Gaudi 2、英偉達(dá)的H100等,都是側(cè)重于人工智能應(yīng)用的計(jì)算芯片。此外,近年間還有DPU、IPU、CIPU等新型數(shù)據(jù)中心處理器。
云計(jì)算芯片市場(chǎng)的老玩家——CPU自然也不會(huì)缺席。
近20年來,云服務(wù)器CPU市場(chǎng)長年被英特爾的x86架構(gòu)統(tǒng)治,其市場(chǎng)份額甚至一度超過90%。
CPU架構(gòu)設(shè)計(jì)難度大、生態(tài)壁壘高,一直是芯片產(chǎn)業(yè)的集大成之作。
然而,哪里有壟斷,哪里就有挑戰(zhàn)者。從2008年開始,ARM就持續(xù)對(duì)服務(wù)器芯片市場(chǎng)發(fā)動(dòng)了進(jìn)攻,惠普、AMD、博通、高通等芯片設(shè)計(jì)公司都曾陸續(xù)推出相關(guān)產(chǎn)品,可惜大多折戟。
然而,市場(chǎng)并未因一時(shí)的失利而失去信心。2018年,ARM發(fā)布ARM Neoverse計(jì)算平臺(tái),瞄準(zhǔn)了云計(jì)算服務(wù)器、HPC、AI與機(jī)器學(xué)習(xí)加速這幾大場(chǎng)景。
隨后幾年里,AWS推出Graviton系列服務(wù)器CPU;Ampere Computing推出80核Ampere Altra和128核Ampere Altra Max服務(wù)器CPU;國內(nèi)廠商飛騰推出多款服務(wù)器CPU。
作為國內(nèi)云計(jì)算產(chǎn)業(yè)的領(lǐng)頭玩家,阿里云也在2021年的云棲大會(huì)上推出了首款自研云原生處理器CPU——倚天710。
這是阿里第一顆“為云而生”的CPU,容納了高達(dá)600億個(gè)晶體管。它基于ARM v9架構(gòu)打造,擁有128核,并在全球權(quán)威CPU基準(zhǔn)測(cè)試集SPECint 2017上拿到了440分的超高成績,超出業(yè)界標(biāo)桿20%。
而在今年的2022云棲大會(huì)現(xiàn)場(chǎng),阿里云智能總裁張建鋒更是進(jìn)一步宣布,經(jīng)過一年的業(yè)務(wù)驗(yàn)證后,倚天710已經(jīng)完成大規(guī)模部署,不僅支撐了阿里巴巴內(nèi)部核心電商業(yè)務(wù),還開始對(duì)匯量科技等科學(xué)研究、智能手機(jī)和互聯(lián)網(wǎng)等多家企業(yè)提供服務(wù)。
據(jù)張建鋒介紹,基于倚天710的云計(jì)算實(shí)例在數(shù)據(jù)庫、大數(shù)據(jù)、視頻編解碼、AI推理等核心場(chǎng)景中的性價(jià)比提升30%以上,單位算力功耗(耗電量)降低了60%以上。
二、拿雙11“練手”:“奢侈”的成長史
倚天710去年完成流片,今年就已完成大規(guī)模部署,并能夠?qū)ν馓峁┓?wù),其速度之快,在動(dòng)輒以3-5年為迭代周期的芯片行業(yè)可謂驚人。
這是所有云廠商自研芯片都具備的優(yōu)勢(shì)——不用等待漫長的反饋周期。
據(jù)張獻(xiàn)濤介紹,在傳統(tǒng)的云計(jì)算廠商與第三方芯片供應(yīng)商合作的過程中,一個(gè)新的性能需求不僅要經(jīng)過雙方的多番溝通驗(yàn)證,還要少則三四年、多則六七年才能變成現(xiàn)實(shí)。
“高端領(lǐng)域的技術(shù)日新月異,四年可能已經(jīng)天翻地覆了?!睆埆I(xiàn)濤感嘆道。
由于英特爾等第三方芯片供應(yīng)商的產(chǎn)品往往是通用的,需要適用于不同的用戶的不同場(chǎng)景,其因此需要在不同的條件下反復(fù)測(cè)試。
但對(duì)于云廠商自研的芯片來說,只要確保這塊芯片在自家數(shù)據(jù)中心里穩(wěn)定運(yùn)行即可,無須讓它適配市面上的其他企業(yè)。
而且,自家研發(fā)的芯片還有一項(xiàng)令人艷羨不已的“奢侈”享受。
據(jù)張獻(xiàn)濤回憶,倚天710在去年流片回來后不久,就迎來了阿里一年一度的“雙11”大促。
“雙11”這場(chǎng)全民購物狂歡,也是阿里IT一年一度的攻堅(jiān)之戰(zhàn),其流量、強(qiáng)度、并發(fā)度都是全球頂尖級(jí)別的難度。
剛剛從襁褓中誕生的倚天710,就這樣被硬生生地推到了“雙11”前線,由芯片工程師團(tuán)隊(duì)利用“雙11”豐富的數(shù)據(jù)庫、存儲(chǔ)、AI計(jì)算等高強(qiáng)度場(chǎng)景進(jìn)行全面“地獄級(jí)”壓力測(cè)試,有如武俠小說里七八個(gè)不世出的絕頂高手將畢生所學(xué)全部傳授給一個(gè)剛剛會(huì)走路的小孩,這小孩的成長速度絕不可與常人同日而語。
傳統(tǒng)來說,客戶對(duì)芯片樣片進(jìn)行部署、測(cè)試、收集、反饋的周期長達(dá)半年甚至一年,芯片廠需要再根據(jù)客戶反饋進(jìn)行重新的設(shè)計(jì)與改版。
而對(duì)于既是客戶,又是供應(yīng)商的云計(jì)算廠商而言,這往往就是發(fā)起一個(gè)跨部門會(huì)議的事情。
當(dāng)前,阿里云上已經(jīng)有百萬臺(tái)服務(wù)器,支撐了各行各業(yè)不同的應(yīng)用場(chǎng)景,其復(fù)雜、豐富程度成為倚天710的絕佳養(yǎng)料,能夠讓芯片團(tuán)隊(duì)在最短時(shí)間內(nèi)得到最全面的反饋數(shù)據(jù)。
“我們?cè)诮衲甏汗?jié)前就已經(jīng)知道這顆芯片是靠譜的。前期的場(chǎng)景壓測(cè)給了我們很大的信心?!睆埆I(xiàn)濤說。
三、從1到100,生態(tài)破局之戰(zhàn)
正如上文所言,CPU設(shè)計(jì)難度大、生態(tài)壁壘高,一直是芯片產(chǎn)業(yè)的集大成之作。
“設(shè)計(jì)難度大”比較好理解,但實(shí)際上,“生態(tài)壁壘高”才是困住CPU的真正阻礙。
通俗來講,就是做一個(gè)CPU出來,沒有那么難;讓大家都能用好這個(gè)CPU,很難。
就像安卓的軟件不能在iOS平臺(tái)運(yùn)行,一直以來,應(yīng)用、操作系統(tǒng)、芯片架構(gòu)都是高度綁定的。在電腦、手機(jī)等消費(fèi)電子領(lǐng)域,更換芯片架構(gòu)是“傷筋動(dòng)骨”的大手術(shù),需要芯片廠商、系統(tǒng)廠商、應(yīng)用開發(fā)者的多方面緊密協(xié)作,難度很高。
然而在云計(jì)算領(lǐng)域,自研芯片讓問題變得簡單了一些。
早在2007年,阿里就開始啟動(dòng)了“飛天”云操作系統(tǒng)的自研。隨后,阿里云又陸續(xù)推出了解決虛擬化性能損耗問題的“神龍”架構(gòu)服務(wù)器、“盤古”分布式存儲(chǔ)系統(tǒng)、基于軟硬一體的“洛神”云網(wǎng)絡(luò)系統(tǒng)、“磐久”液冷集裝箱、開源服務(wù)器操作系統(tǒng)“龍蜥”、云原生數(shù)據(jù)庫PolarDB、AI統(tǒng)一平臺(tái)靈杰……
而在芯片領(lǐng)域,阿里云也陸續(xù)推出了云基礎(chǔ)設(shè)施處理器CIPU、云計(jì)算AI推理芯片“含光”系列、RISC-V處理器“玄鐵”系列、RFID芯片“羽陣”系列、服務(wù)器CPU“倚天”系列……
這些阿里的自研技術(shù)產(chǎn)品,從軟件到硬件,幾乎覆蓋了云計(jì)算的整個(gè)鏈路環(huán)節(jié),讓阿里將改換芯片架構(gòu)的“傷筋動(dòng)骨”環(huán)節(jié)所遇到的阻力盡可能最小化。
對(duì)于用戶而言,從普通實(shí)例遷移到倚天710云實(shí)例上的應(yīng)用,則更是做到了“零代碼”遷移。用戶僅需要做簡單的重新部署/編譯,便能輕松實(shí)現(xiàn)近乎無感的平滑遷移。
但是,用戶為什么要花費(fèi)這些時(shí)間和精力去遷移到一個(gè)全新的架構(gòu)里呢?
因?yàn)樽匝行酒鶐淼男阅芴嵘c成本下降極其顯著。
張建鋒透露,當(dāng)前,倚天710云實(shí)例已在多家互聯(lián)網(wǎng)科技公司大規(guī)模應(yīng)用,覆蓋了材料研發(fā)、廣告推理、語音推理、電商交易等多個(gè)領(lǐng)域。
其視頻編碼應(yīng)用性能提升80%、數(shù)據(jù)庫性能提升30%、AI推理性能提高了70%。最可貴的是,其算力性價(jià)比提升了超過超30%,單位算力功耗降低了60%——真可謂“加量不加價(jià)”了。
比如,匯量科技的廣告推理精排業(yè)務(wù)性能和內(nèi)網(wǎng)帶寬上均實(shí)現(xiàn)了提升,綜合性價(jià)比提升40%以上。
匯量科技首席人工智能官朱小強(qiáng)就曾表示,隨著在線推理模型的不斷升級(jí),匯量科技對(duì)CPU性能和內(nèi)網(wǎng)帶寬要求更高,倚天710實(shí)例很好地滿足了公司業(yè)務(wù)升級(jí)的新需求,做到了降本增效。
在2022云棲大會(huì)上,張建鋒進(jìn)一步宣布,未來兩年,阿里云有20%的新增算力將來自阿里云的自研芯片。
四、一云多芯,重塑云計(jì)算產(chǎn)業(yè)
早在去年,阿里云就宣布了其“一云多芯”的核心戰(zhàn)略——以飛天操作系統(tǒng)為核心,全面向下兼容x86、ARM、RISC-V等多種芯片架構(gòu),以及倚天、AMD、Ampere等多種CPU,并將其封裝成直接面向用戶的標(biāo)準(zhǔn)算力,既解決了CPU不兼容導(dǎo)致的云和軟件開發(fā)問題,又讓更多種類的芯片進(jìn)入云計(jì)算生態(tài)。
今年6月,阿里云正式發(fā)布了CIPU(Cloud infrastructure Processing Units)。這是一套阿里云歷時(shí)7年所打造的云數(shù)據(jù)中心專用處理器,未來將替代CPU成為云計(jì)算的管理、加速計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源中心。
在本次云棲大會(huì)上,阿里云首次展現(xiàn)了“飛天+CIPU+CPU”的組合成果。據(jù)阿里透露,這一組合性能表現(xiàn)普遍優(yōu)于業(yè)內(nèi)同類產(chǎn)品,性價(jià)比可提升30%以上。
這不僅是阿里在CIPU、倚天710等芯片上取得的成果,更是過去十幾年間年,阿里云在自研操作系統(tǒng)、數(shù)據(jù)庫、存儲(chǔ)、網(wǎng)絡(luò)和芯片等軟硬件技術(shù)上取得的協(xié)同成果。
冰凍三尺,非一日之寒。阿里巴巴集團(tuán)CFO武衛(wèi)曾在全球投資者大會(huì)上透露,這幾年,阿里在技術(shù)和研發(fā)上的投入每年都超過1000億人民幣。
當(dāng)前,從軟件到硬件,從操作系統(tǒng)到計(jì)算架構(gòu),從上層應(yīng)用到底層架構(gòu),以人工智能、虛擬現(xiàn)實(shí)等為代表的新興行業(yè)應(yīng)用正倒逼云計(jì)算廠商不斷加大技術(shù)自研力度,力圖在如今的重要節(jié)點(diǎn),抓住新一代云計(jì)算技術(shù)標(biāo)準(zhǔn)定義,得到重塑云計(jì)算產(chǎn)業(yè)的話語權(quán)。
如今,阿里云的野心已不僅僅是推出一款芯片、一個(gè)架構(gòu),更是秉承著“一云多芯”的戰(zhàn)略指導(dǎo),徹底改革傳統(tǒng)的以CPU為中心的云計(jì)算體系,憑借著“飛天+CIPU+豐富算力來源”的新架構(gòu),將云計(jì)算產(chǎn)業(yè)推向新時(shí)代,從云效率最大化出發(fā),重構(gòu)數(shù)據(jù)中心,構(gòu)建軟硬一體的“新一代云計(jì)算體系”。
張建鋒在云棲大會(huì)上表示,當(dāng)前以云計(jì)算為核心的新型計(jì)算體系,正在帶來三大變革:
1、云重構(gòu)了整個(gè)IT硬件體系,數(shù)據(jù)中心、芯片、服務(wù)器等產(chǎn)業(yè)鏈發(fā)生深刻變化;
2、軟件研發(fā)范式發(fā)生深刻變革,Serverless、低代碼、AI大模型開源等趨勢(shì),大幅提升軟件生產(chǎn)效率;
3、云和端加速融合,算力從端轉(zhuǎn)移上云,未來萬物皆是計(jì)算機(jī)。
在這個(gè)全新的云計(jì)算時(shí)代里,芯片、操作系統(tǒng)、上層應(yīng)用的原生融合已是大勢(shì)所趨。倚天710的推出與成功大規(guī)模部署應(yīng)用,既是這條技術(shù)變革道路之上的里程碑,又僅僅只是萬里長征的一個(gè)開始。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



