2018年11月20日,NVIDIA在蘇州召開了GTC China 2018大會(huì)。與會(huì)者對(duì)這場(chǎng)技術(shù)大會(huì)的期待不僅在于NVIDIA本身,對(duì)于其產(chǎn)品和技術(shù)在國內(nèi)的具體應(yīng)用也倍加關(guān)注。
網(wǎng)站建設(shè)哪家好,找成都創(chuàng)新互聯(lián)!專注于網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、微信小程序開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了精河免費(fèi)建站歡迎大家使用!在本次大會(huì)上,國內(nèi)高性能計(jì)算領(lǐng)軍企業(yè)中科曙光推出了全新的XMachine系列AI服務(wù)器,基于Intel Skylake CPU,最多可通過NVLink支持8塊NVIDIA GPU、10卡訓(xùn)練GPU、20卡推理加速卡。底板采用CPU主板和GPU解耦合設(shè)計(jì),可根據(jù)CPU和GPU的發(fā)展各自獨(dú)立升級(jí),降低用戶更新?lián)Q代成本。
發(fā)布會(huì)后,雷鋒網(wǎng)與中科曙光智能計(jì)算技術(shù)總監(jiān)許濤進(jìn)行了深入的交流對(duì)話,獲悉中科曙光在產(chǎn)品和市場(chǎng)上的一些思考。
對(duì)于大多數(shù)人來說,高性能計(jì)算(HPC)產(chǎn)品和傳統(tǒng)的服務(wù)器似乎沒什么區(qū)別,都象征著“專業(yè)級(jí)”、“企業(yè)級(jí)”等高大上的定位。不過在談話中我們了解到,以高算力為需求的產(chǎn)品,已經(jīng)從傳統(tǒng)服務(wù)器中獨(dú)立出來了,其設(shè)計(jì)方式和傳統(tǒng)服務(wù)器有很大不同。
許濤向雷鋒網(wǎng)介紹,二者首要的區(qū)別在于傳統(tǒng)服務(wù)器的功耗密度相對(duì)較低,而AI服務(wù)器等高性能計(jì)算產(chǎn)品的功耗非常高,目前發(fā)售的AI服務(wù)器額定功率已達(dá)到3200瓦,下一代HGX產(chǎn)品給出的參考功率更是高達(dá)單臺(tái)10千瓦,遠(yuǎn)遠(yuǎn)超過傳統(tǒng)機(jī)架式和刀片式服務(wù)器。而功耗高也帶來了發(fā)熱量大的新挑戰(zhàn),這是AI服務(wù)器和傳統(tǒng)的服務(wù)器大的區(qū)別。
設(shè)計(jì)AI服務(wù)器時(shí),供電和散熱是需要重點(diǎn)考慮的問題,相應(yīng)的對(duì)兼容性和穩(wěn)定性的要求也都不太一樣。在GPU加速卡剛出現(xiàn)的時(shí)候,單卡功耗不超過250瓦,而現(xiàn)在已經(jīng)達(dá)到300瓦,按照目前的趨勢(shì),加速卡功耗還會(huì)隨著時(shí)間推移變得更高,當(dāng)單塊加速卡功耗達(dá)到350瓦以上的時(shí)候,傳統(tǒng)的服務(wù)器結(jié)構(gòu)就很難滿足了。
“在這么高的壓力下,單個(gè)機(jī)柜里能擺放的服務(wù)器數(shù)量是非常有限的?!痹S濤給我們算了筆賬,“3200瓦的AI服務(wù)器,一般的電信機(jī)房單柜只能放2臺(tái),即便是20千瓦容量的高端水冷機(jī)房也只能放6臺(tái)。綜合考慮實(shí)際部署情況之后,我們發(fā)現(xiàn)4U是非常合理的AI服務(wù)器尺寸。XMachine的GPU倉高度為3U,不僅散熱空間大,也為未來的維護(hù)預(yù)留了很大的空間?!?/p>
而對(duì)于個(gè)人工作站,中科曙光在最新的W560-G30產(chǎn)品上也采用了改進(jìn)設(shè)計(jì)的3段式散熱方案:
GPU區(qū)域:RTX6000顯卡功耗達(dá)300瓦,擁有專門的散熱空間,并且使用IPMI功能精準(zhǔn)讀取顯卡狀態(tài)狀況并管理顯卡功耗和風(fēng)扇散熱,控制相應(yīng)的風(fēng)扇風(fēng)量,在保證顯卡散熱的同時(shí)將辦公環(huán)境下的噪音壓縮至最低,最高可支持2塊顯卡全速運(yùn)轉(zhuǎn)。
CPU區(qū)域:支持2顆共56個(gè)物理核心的至強(qiáng)鉑金CPU,每顆CPU的功耗達(dá)205瓦;2顆CPU風(fēng)道互相隔離,每顆CPU均有獨(dú)立進(jìn)風(fēng),保證CPU在高功耗下穩(wěn)定工作,并可支撐進(jìn)一步的超頻空間。
電源區(qū)域:使用可7*24小時(shí)穩(wěn)定提供1250瓦供電能力的鉑金電源,并設(shè)計(jì)有電源的獨(dú)立風(fēng)道;時(shí)在放置于數(shù)據(jù)中心使用時(shí),可支持冗余電源和基于BMC的遠(yuǎn)程管理功能,變身成為高性能GPU服務(wù)器。
隨著異構(gòu)計(jì)算越來越流行,現(xiàn)在HPC Top 500里排名靠前的超高算力服務(wù)器基本上都用到了GPU加速卡或者其他加速部件。據(jù)雷鋒網(wǎng)了解,目前NVIDIA已經(jīng)基本壟斷了AI計(jì)算的訓(xùn)練端市場(chǎng),但在與用戶應(yīng)用貼合特別緊密的推理端,由于需要進(jìn)行具體的應(yīng)用部署,GPU作為一種通用計(jì)算單元的優(yōu)勢(shì)就會(huì)被削弱。
NVIDIA雖然面向推理端市場(chǎng)發(fā)布了T4計(jì)算卡,但是像Intel、賽靈思和寒武紀(jì)等公司,依然在積極開拓這一領(lǐng)域。根據(jù)介紹,XMachine系列AI服務(wù)器在設(shè)計(jì)上可以兼容多種加速器產(chǎn)品,這些芯片在市場(chǎng)中是互補(bǔ)的,中科曙光未來會(huì)針對(duì)不同應(yīng)用場(chǎng)合推出使用不同加速芯片的服務(wù)器,就看終端用戶的訴求是什么。
“在文字處理或信息導(dǎo)流等業(yè)務(wù)中,傳統(tǒng)CPU的運(yùn)算效率也很好;如果是需要捕捉黃金窗口期的商業(yè)化公司,那么NVIDIA T4這樣的GPU加速產(chǎn)品可以讓公司迅速上線項(xiàng)目?!?許濤為我們?cè)敿?xì)分析著幾種不同的情況,“而對(duì)那些擁有特殊業(yè)務(wù)需求的定制化客戶來說,他們需要經(jīng)常迅速改換業(yè)務(wù)邏輯,這種情況下顯然FPGA更適合?!?/p>
隨后,許濤特別提到了寒武紀(jì)科技今年5月3日發(fā)布的首款云端智能芯片MLU100及對(duì)應(yīng)的云端AI計(jì)算卡,并糾正了我們對(duì)國產(chǎn)AI芯片的一些認(rèn)識(shí)誤區(qū)。他表示,寒武紀(jì)MLU100芯片與NVIDIA P4/T4加速卡的設(shè)計(jì)理念大相徑庭,二者在計(jì)算能力上并不能直接進(jìn)行對(duì)比。
“寒武紀(jì)MLU100芯片所使用的AI框架和技術(shù)非常專一,可以快速實(shí)現(xiàn)CNN、RNN等各種各樣的卷積過程,達(dá)到非常好效果,在特定的推理市場(chǎng)上給用戶提供更好的加速。如果是與應(yīng)用貼合非常緊密的研究型用戶,寒武紀(jì)MLU100芯片可以在其特定環(huán)境下將算力發(fā)揮到極致?!?/p>
中科曙光此次發(fā)布的XMachine系列AI服務(wù)器,采用了CPU底板和GPU底板解耦的設(shè)計(jì),未來可通過模塊化組合的方式進(jìn)行獨(dú)立升級(jí),以降低用戶更新?lián)Q代成本,大限度保護(hù)投資。
為此我們不免擔(dān)心,這種彈性靈活的創(chuàng)新設(shè)計(jì),會(huì)不會(huì)慢慢被其他服務(wù)器廠商效仿?
對(duì)于這一問題,許濤很是自信:如果其他公司真的模仿我們的機(jī)器,說明我們引領(lǐng)了這個(gè)市場(chǎng)。據(jù)悉,之前國內(nèi)的GPU服務(wù)器來源基本都是OEM或ODM,但隨著時(shí)間的推移,技術(shù)輸入越來越困難,這些產(chǎn)品很難適應(yīng)國內(nèi)形形色色的定制化需求。
許濤坦言,中科曙光并不是國內(nèi)第一家推出GPU服務(wù)器的廠商,但是他們希望可以做到最好,或者說可以在某些擅長的行業(yè)里面做到最好。而想要讓產(chǎn)品始終保持先進(jìn)的架構(gòu)或結(jié)構(gòu),就要不停進(jìn)行技術(shù)演進(jìn),一款產(chǎn)品成熟的過程就是一個(gè)反復(fù)迭代的過程。
“從我們自己的角度來看,現(xiàn)在的產(chǎn)品不應(yīng)該是完美的,應(yīng)該有新的版本不停迭代,讓它變得越來越適用于用戶應(yīng)用場(chǎng)景,或者越來越適用于新技術(shù)的發(fā)展?!痹S濤解釋道,“模仿是沒有辦法避免的,但在其他公司模仿的過程中,我們自身也在不停演進(jìn),所以我們并不擔(dān)心產(chǎn)品被模仿。”
同時(shí)他還指出,隨著技術(shù)的不斷更新,很多技術(shù)要素想要模仿也是很困難的。中科曙光除與NVIDIA建立合作外,還與寒武紀(jì)等其他國產(chǎn)芯片合作,合作過程中需要投入大量技術(shù)資源和測(cè)試資源,這些投入都不是簡單的模仿機(jī)器硬件可以實(shí)現(xiàn)的。
“從這個(gè)層面來講,我們希望他們能模仿。如果其他公司真的模仿我們的機(jī)器,說明我們引領(lǐng)了這個(gè)市場(chǎng)?!?/p>
現(xiàn)在云計(jì)算已經(jīng)不再像過去那樣只停留在各種文章里面,隨著認(rèn)可度的逐漸提升,不管是專用云平臺(tái)還是通用云平臺(tái)都在慢慢落地,各種企業(yè)都越來越愿意為這份資源去花錢。
中科曙光的AI戰(zhàn)略規(guī)劃很大,一方面中科曙光有AI服務(wù)器自己的底層硬件產(chǎn)品,另一方面也在硬件產(chǎn)品的基礎(chǔ)上設(shè)計(jì)配套軟件,并擁有自己的云計(jì)算中心和先進(jìn)計(jì)算平臺(tái)。云計(jì)算中心既可以給用戶提供計(jì)算資源,也希望能夠通過虛擬化的技術(shù),幫助那些有獨(dú)特見解的用戶實(shí)現(xiàn)他們的創(chuàng)意。
雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))了解到,中科曙光在云計(jì)算領(lǐng)域的起步其實(shí)非常早,在成都、無錫、南京、包頭等地都有為政府提供服務(wù)的城市云計(jì)算中心。但許濤清楚地知道,云計(jì)算中心也需要隨著時(shí)代前進(jìn)而不停演進(jìn),隨著普及程度的提高,如果只停留在傳統(tǒng)的發(fā)展模式下,未來的競爭力會(huì)越來越弱。
“從我們的角度來看,更希望能在某些特殊領(lǐng)域或行業(yè)里供專業(yè)的云服務(wù)?!痹S濤解釋道,“中科曙光的體量是無法和BAT這種通用云平臺(tái)抗衡的,他們的構(gòu)架非常龐大,可以把很多業(yè)務(wù)都牽進(jìn)去,但是對(duì)我們來講,想要保持業(yè)務(wù)的先進(jìn)性,只能在一些特殊領(lǐng)域或行業(yè)里做到最尖端?!?/p>
“為用戶提供特異化的服務(wù),使我們的優(yōu)勢(shì)很難被通用云平臺(tái)模仿,這才是正確的發(fā)展方向,也是我們眼中未來的云計(jì)算市場(chǎng)。”許濤如是說。
當(dāng)前名稱:訪中科曙光智能計(jì)算技術(shù)總監(jiān)許濤:重新認(rèn)識(shí)面向未來的AI服務(wù)器和云計(jì)算中心
本文URL:http://jinyejixie.com/article28/dpicp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計(jì)、網(wǎng)站建設(shè)、網(wǎng)站制作、靜態(tài)網(wǎng)站、小程序開發(fā)、微信小程序
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)