更快更節(jié)能!谷歌稱自家AI超算系統(tǒng)優(yōu)于英偉達
財聯(lián)社4月5日訊(編輯 周子意)當?shù)貢r間周二(4月4日),谷歌公布了其用于訓練人工智能(AI)模型的超級計算機的最新細節(jié)。該公司稱,這些系統(tǒng)比英偉達公司的同期系統(tǒng)更快、更節(jié)能。
目前,谷歌公司90%以上的AI訓練工作都是通過谷歌自主研制的TPU芯片(Tensor Processing Unit)完成的。其AI訓練的過程是:通過給模型輸入數(shù)據(jù),使其能夠用類似人類的文本回應(yīng)、并具備生成圖像等功能。
現(xiàn)谷歌TPU芯片已經(jīng)出到第四代(TPU v4)了。谷歌公司周二發(fā)布的一篇論文詳細闡述了,該公司是如何利用自己定制的光開關(guān)將4000多個芯片組合到一臺超級計算機中,從而幫助連接一臺臺獨立機器。

改善芯片間的連接
隨著OpenAI的ChatGPT、谷歌的Bard等AI聊天機器人的競爭愈演愈烈,改善芯片間的連接已成為開發(fā)AI超算的科技公司的一個關(guān)鍵競爭點。
由于ChatGPT、Bard等產(chǎn)品背后使用的大型語言模型的規(guī)模太龐大了,無法存儲在單一芯片上。所以,這些模型必須分散在數(shù)千個芯片上,然后這些芯片必須同時工作,花費數(shù)周或更長時間來訓練語言模型。
谷歌的PaLM是該公司迄今為止公開披露的最大的語言模型。其訓練方式是:通過將其分配到兩臺各包含4000個芯片的超級計算機中,歷時50天進行訓練。
谷歌周二稱,其超級計算機可以很輕松地在運行過程中重新配置芯片之間的連接,有助于避免問題并調(diào)整性能。
該公司的研究員Norm Jouppi和工程師David Patterson在上述論文中寫道,“電路切換可以很容易地繞過故障組件…這種靈活性甚至允許我們改變超級計算機互連的拓撲結(jié)構(gòu),以加速機器學習模型的性能。”
研發(fā)新版本
雖然谷歌直到現(xiàn)在才披露關(guān)于其超級計算機的詳細信息,不過事實上,自2020年以來,該系統(tǒng)已經(jīng)在公司內(nèi)部上線,應(yīng)用于該公司位于俄克拉荷馬州的一個數(shù)據(jù)中心。
據(jù)悉,初創(chuàng)公司Midjourney使用該系統(tǒng)來訓練其模型,在輸入幾句文字后,模型就會生成新的圖像。
谷歌在論文中還寫道,相比于與TPU v4同時發(fā)布的英偉達A100芯片,其芯片速度高達A100的1.7倍,能耗效率是A100的1.9倍。
不過谷歌也承認,并沒有將TPU v4與英偉達目前的H100芯片進行比較。給出的理由是:H100上市時間晚于谷歌芯片,并且采用了更新的技術(shù)。
此外,谷歌還暗示,正在研發(fā)一種新版本TPU,以期與英偉達H100芯片競爭,但沒有提供細節(jié)。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

