英偉達(dá)GPU集群監(jiān)控方案解析:支持功耗追蹤,無后門及遠(yuǎn)程終止機制
IT之家12月14日消息,英偉達(dá)官方于本周(12月10日)在其官網(wǎng)發(fā)布文章,對正在開發(fā)的可視化GPU集群監(jiān)控方案進(jìn)行了詳細(xì)說明,該方案能夠協(xié)助云服務(wù)合作伙伴統(tǒng)計GPU的正常運行時長。

IT之家引用官方信息稱,此方案由用戶自主選擇是否使用、客戶自行完成安裝,可用于監(jiān)測GPU的使用狀態(tài)、配置情況以及錯誤信息,其中包含開源的客戶端軟件代理,目的是幫助客戶更充分地發(fā)揮GPU系統(tǒng)的效能。
該套軟件具備以下功能:
追蹤功耗峰值,在控制能耗預(yù)算的前提下,使每瓦性能達(dá)到最大化
監(jiān)控整個GPU集群的利用率、內(nèi)存帶寬以及互聯(lián)情況
提前察覺熱控制方面的問題,防止因設(shè)備過熱引發(fā)降頻、組件老化等風(fēng)險
確認(rèn)軟件配置與設(shè)置的一致性,保障運行結(jié)果可復(fù)現(xiàn)、系統(tǒng)運行可靠
識別錯誤與異常狀況,盡早發(fā)現(xiàn)潛在的故障部件
官方表示,這套軟件能夠幫助企業(yè)和云服務(wù)提供商清晰了解其GPU集群的運行狀態(tài),解決系統(tǒng)瓶頸問題,提升生產(chǎn)效率。整套服務(wù)通過實時監(jiān)控來實現(xiàn),每個GPU系統(tǒng)會與外部云服務(wù)進(jìn)行通信,并共享GPU相關(guān)指標(biāo)。

與此同時,英偉達(dá)著重指出,其生產(chǎn)的GPU不包含任何硬件追蹤技術(shù)、遠(yuǎn)程終止開關(guān)或是后門程序。
另外,英偉達(dá)計劃將客戶端軟件代理進(jìn)行開源,以提供更高的透明度和可審計性。整套軟件能夠呈現(xiàn)企業(yè)GPU資產(chǎn)的可視化信息,無法對GPU配置或底層運作方式進(jìn)行修改,僅能提供只讀的遙測數(shù)據(jù),由客戶自行管理,并且可根據(jù)需求進(jìn)行定制。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



