發力存算(suàn)網協同,運營商如(rú)何在存力上(sh ↑↓àng)做(zuò)文(wén)章(zhāng)?
當AI大(dà)模型參數(shù)規模突破萬億級,AI ®→算(suàn)力的(de)重要(yào)性已經€σ> 毋庸置疑。但(dàn)随著(zhe)算(suàn)力基礎設施越建越多(duō),一(yī)個(gè)被忽視(shì✔↕♠→)的(de)真相(xiàng)也(yě)逐漸清晰:最終決定訓練乃至推理(l&₹©εǐ)效率的(de)不(bù)是(shì)單純的(de)↓→算(suàn)力峰值,而是(shì)數(shφ♣>ù)據從(cóng)存儲到(dào)計(jì)算(suàn>$←≥)的(de)“流轉效率”。
在AI大(dà)模型訓練、推理(lǐ)等業(yè)務快(kuài)速發₩π展的(de)大(dà)背景下(xià),數(shù)據存儲與 δ計(jì)算(suàn)的(de)協同效率✘£不(bù)僅成為(wèi)運營商IT系統升級♥™的(de)關鍵,更關乎AI在運營商和(hé)各行(xδ íng)各業(yè)業(yè)務中的(de☆γ)部署應用(yòng)。
作(zuò)為(wèi)數(shù)字基建主力軍,當'↓前運營商對(duì)存力的(de)需求已從(cóng)“輔助角色€↔”升級為(wèi)“重要(yào)引擎”。
01
迎接“AI+”時(shí)代
存算(suàn)網協同成為(wèi)運營商的(de)必答(dá)題
随著(zhe)AI大(dà)模型發展深入推進,行(xíng)業(yè)對×≈(duì)存力的(de)需求日(rì)益凸顯。在數(shù)據→≠φδ處理(lǐ)能(néng)力上(shàng),存儲系統須具↕"Ω€備高(gāo)IOPS和(hé)高(gāo)↓π帶寬,滿足高(gāo)速讀(dú)寫需求,減少(♣↕₩αshǎo)計(jì)算(suàn)資源等待時(shí)間(jiān);在容×'量方面,存力要(yào)從(cóng)TB級擴展到(dào)PB級以上₹×≤(shàng),以容納海(hǎi)量非結構化(huà)數(shù)據;↑™™同時(shí),存力支撐下(xià)的(de)低(dī)延遲∏ε₩訪問(wèn)對(duì)實時(shí)AI應用(yòng)也(yě)至關重要¶♦≥(yào)。
直面行(xíng)業(yè)需求,運營商作(zuò)為(wèi)算(suàn¶∏)網一(yī)體(tǐ)化(huà)的(de)核心建設者σ¶©與引領者,存儲與計(jì)算(suàn)、網絡的(de)協同已成為(₩↔↕wèi)其無法回避的(de)課題。
從(cóng)業(yè)務需求來(lái)看(kàn€∑∏),AI訓練和(hé)推理(lǐ)對(duì)存算(suàn)網協同的(de)≤性能(néng)要(yào)求呈現(xiàn)多(duō)維度提升。中國(guó)移動研究院網絡與IT技(jì)術(±shù)研究所項目經理(lǐ)闫晗指出,在訓練方面,随著(zhe)參數(shù)量、訓練數(shù)據★×量的(de)激增,訓練檢查點不(bù)斷增大(dà),對(duì)于存儲提 Ω®出TB/s級高(gāo)吞吐性能(néng)需求。≠<₩'在推理(lǐ)方面,由于GPU顯存空(kō'¶↓♣ng)間(jiān)有(yǒu)限,需要(yào)構建HBM-DRAM-♣↔δSSD多(duō)級KVCache緩存架構,以緩存更多(duσ¶$∞ō)KV數(shù)據,提升KVCache命中率。
“當前存儲與計(jì)算(suàn)、網絡資源的(de)協同還(hái)存在諸₽≠多(duō)短(duǎn)闆:在多(duō)協議φ©δ (yì)處理(lǐ)方面,傳統按照(zhào)文(w≠™™ én)件(jiàn)、對(duì)象、塊協議(yì)分(fēn)立©®λ的(de)存儲系統暴露出數(shù)據跨池拷貝←♠ε§痛點和(hé)數(shù)據冗餘問(wèn)題;在存儲網絡方面,傳統TCP>♣/IP網絡面對(duì)海(hǎi)量數(shù)據傳輸存在瓶頸;在存儲客戶端δ'方面,傳統NFS文(wén)件(jiàn)客戶端不(b∏↕ù)能(néng)滿足高(gāo)并發讀(dú)寫性 →™能(néng)需求。”闫晗講道(dào)。
從(cóng)IT系統整體(tǐ)來(lái)₹α™看(kàn),存儲與計(jì)算(suàn)、網絡資源如(rú)何協同才±♠能(néng)滿足AI業(yè)務需求,目前存在哪些(xiē)協同短(π∞duǎn)闆?未來(lái)如(rú)何實現(xiàn)高♠δα(gāo)效低(dī)時(shí)延傳輸?帶著(z↔β"he)這(zhè)一(yī)系列行(xíng)業(yè)關注的(de)®↓σ話(huà)題,近(jìn)期,工(gōng)信智媒體(tǐ)還(há♦i)将組織專家(jiā)研討(tǎo)沙龍,深入探索行(x∏≥≤↑íng)業(yè)的(de)應用(yòng)之策。

02
高(gāo)性能(néng)、低(dī)成本的(de)SSD
成為(wèi)存力市(shì)場(chǎng)核心訴求
構建高(gāo)效存力,存儲技(jì)術(shù)可(kě)謂關鍵制(z Ωhì)約因素。在這(zhè)場(chǎn↑₹g)關于容量、性能(néng)、成本的(de)博弈中,存儲技(jì)術(£ε×shù)也(yě)逐漸演進,打破HDD市(shì)場(ch←¶<ǎng)長(cháng)期被國(guó)外(w↑βλài)制(zhì)約的(de)困境,國(guó)産廠(chǎng)商在SSα✔D領域正實現(xiàn)彎道(dào)超車(™λ®chē)。
就(jiù)企業(yè)進展來(lái)看(kàn),長(cháng)江存儲3D NAND閃存技(jì)術(shù)持續叠代,作(zuò)為(wèi)SSD大(dà)腦(nǎo)的(d↕"₽e)主控芯片,目前國(guó)內(nèi)絕大₩≈☆(dà)多(duō)數(shù)依然是(shì)國(guó)外(wà®♥★i)芯片廠(chǎng)商占據,其比例遠(yuǎn)高(g♥¥©©āo)于CPU市(shì)場(chǎng),這(zhè)無疑≤€£凸顯了(le)國(guó)內(nèi)相(xiàng)關産業↔α ¶(yè)在該領域實現(xiàn)自(zì)主突破的(de)緊σ>≠迫性。
從(cóng)技(jì)術(shù)價值來(lái)看(kàn),S €SD芯片直接決定存儲性能(néng)。“中國(gu→$δ¶ó)移動重點考量SSD硬盤的(de)讀(dú)寫帶寬、IOP✘™σS、時(shí)延、可(kě)靠性、功耗等指标,同時(shí)也(yě •)考量SSD産品的(de)成本因素,從(cóng)技(jì)術(sh↕÷ù)和(hé)成本兩方面進行(xíng)綜合評估。”闫晗介紹,目前中↔∞✔∞國(guó)移動在智算(suàn)場(chǎ♦♠ ¶ng)景下(xià),存儲介質正在快(kuài)速向全閃化(huà)演進, £✘&以實現(xiàn)存儲系統高(gāo)吞吐、低(dī)延遲、低(±&πdī)功耗的(de)目标。
對(duì)此,中國(guó)聯通(tōng)研究院未來(lái)網絡研究部總監曹←σ$ 暢也(yě)同樣認為(wèi),從(cóng)運營商角度來(l←≈'ái)看(kàn),更為(wèi)看(kàn)好(hǎo&↓)SSD在成本控制(zhì)與性能(néng)優化(huà)上(s✘®♠<hàng)的(de)優勢。一(yī)方面,新型SSD芯片可(kě)實現(xiàα÷€n)更低(dī)時(shí)延,提供更大(dà)帶寬和(hé)IOPS,能(néng)滿足AI訓練中大(dà)量數(shù)據↑•ε的(de)快(kuài)速讀(dú)寫需求,部分(fēn)新↔↕型SSD芯片還(hái)具備計(jì)算(suàn)加速功能(®•γnéng),可(kě)以加速數(shù)據∑₹¥λ處理(lǐ)。另一(yī)方面,新型SSD芯片采用( λδδyòng)更先進制(zhì)程,在能(néng)效比上(shàn<≥ •g)表現(xiàn)優異。
近(jìn)年(nián)來(lái)平頭哥(gē)的(de)鎮嶽企業(yè)級SSD主控芯片嶄露頭角,不(bù)僅具備高(gāo)達3400K IOPS的(de×÷)IO處理(lǐ)能(néng)力,輕松應對(duì)高(gāo¥)并發AI推理(lǐ)任務;而且憑借領先業(yè)界的(dφ ε÷e)超低(dī)延遲 ,能(néng)快(k♥ uài)速響應推理(lǐ)請(qǐng)求,減少(sh€Ωǎo)等待時(shí)間(jiān);同時(shí)支持♠"多(duō)種NAND技(jì)術(shù),保證性能(néng€×)的(de)同時(shí)控制(zhì)存儲成本,提升 €AI推理(lǐ)成本效益。
03
存算(suàn)網協同長(cháng)遠(yuǎn)在于
打赢算(suàn)力能(néng)效戰
AI算(suàn)力的(de)爆發式增長(ch∑✔áng)帶來(lái)巨大(dà)能(néng)耗壓★£ ∑力,如(rú)何在提升訓練效率的(de)同時(shí) ≤降低(dī)能(néng)耗,成為(wèi)運營商存算(s₽∏Ωuàn)網協同的(de)重要(yào)課題,SSD憑借節∑£®能(néng)的(de)突出優勢,也(y÷∞ě)将有(yǒu)效助力這(zhè)一(yī)進程。
對(duì)此,闫晗認為(wèi),液冷(lěng)技(Ω™jì)術(shù)與SSD替代結合是(sh'∏ì)節能(néng)關鍵。液冷(lěng)一(yī)方面能≤®∑(néng)夠提高(gāo)數(shù)據中心的(de)設備部署密度,另一ε¶(yī)方面也(yě)能(néng)保證芯片在最π★☆λ大(dà)電(diàn)壓和(hé)頻(pín)率下(x£→♣ià)連續運行(xíng),提升芯片性能(néng)。而S€×££SD硬盤能(néng)耗比HDD硬盤節省90%以上(shàng),通(≥<®tōng)過SSD對(duì)HDD的(de)替代,可(δ♣'kě)進一(yī)步降低(dī)設備功率,其與液冷(♣αlěng)技(jì)術(shù)相(xiàng)輔Ωδ相(xiàng)成,将共同推動新型節能(néng)、綠(lǜ)色©≈₩低(dī)碳算(suàn)力網絡發展。
網絡架構優化(huà)與協議(yì)創新可(kě)進一(yī)步降低™®←(dī)能(néng)耗。曹暢指出,光(guāδ ng)電(diàn)混合新型組網方案是(s §™hì)未來(lái)的(de)重要(yào)方向,可(k¶♥βě)以解決傳統網絡架構難以滿足超大(dà)規₩★模算(suàn)力集群互聯需求。同時(shí),通(tōng)過優&∑化(huà)擁塞控制(zhì)算(suàn)法、負載均衡策略及RDMA協 議(yì),能(néng)提升網絡吞吐效率A₹♦I訓練效率。此外(wài),曹暢提醒,從(cóng)系統協同方面✔∞來(lái)看(kàn),通(tōng)過智能(néng)化(huà)α'α的(de)管控與調度、自(zì)動化(huà)運維等手段也(yě€☆)可(kě)以确保網絡的(de)高(gāo)可(kě)用(y₽€òng)和(hé)高(gāo)可(kě)靠。
正如(rú)不(bù)同的(de)應用(yòng)場(ch∏→ ™ǎng)景,對(duì)存力的(de)挑戰各有(yǒu)不(bù)同,各有(₩®βδyǒu)側重。未來(lái)存算(suàn)網協同還(h≤→ái)有(yǒu)賴于産業(yè)鏈上(shàng)下(xià)遊企業(↑↑♣yè)同心協作(zuò),從(cóng)O♠→EM廠(chǎng)商、SSD盤的(de)廠(chγ→σǎng)商和(hé)SSD核心芯片企業(×πyè)都(dōu)應各盡所長(cháng)。平頭哥(gē)半導體(tǐ)産品總監周冠鋒認為(wèi),作(zuò)為(wèi)一(yī)±φ種典型的(de)閉源系統,SSD盤廠(chǎng)與主控廠(chǎng)♥♦需要(yào)緊密合作(zuò),充分(fēn)發揮出主控芯片與NAND芯 ₩★γ片的(de)能(néng)力,并盡量以通(tōng)用(yα≈★òng)部件(jiàn)的(de)形态,滿足各場(→φ∑'chǎng)景訴求;同時(shí)在接口兼容性上(shàng)與OEMβα廠(chǎng)商聯合發力,充分(fēn)适配各種不(bù)同硬件(jiàn)ΩΩ平台。
面向未來(lái),當存力、算(suàn)力、運力真正實現(xiàn)“λ×同頻(pín)共振”,不(bù)僅将重塑運營商的(de)競争力,更$"将為(wèi)數(shù)字經濟高(gāo)質量發展注入底層動力。随著(♠σzhe)AI業(yè)務的(de)深入,相(xiàng)信運營商還(hái ¥¶)将在技(jì)術(shù)突破、産業(yè)協同等÷∑₩←方面持續探索。後續,工(gōng)信智媒體(tǐ)≥↕•将持續關注行(xíng)業(yè)動向,并且通(tōng)過“算(suàn)網一(yī)體(tǐ)化(huà)中的(de)存§↓力挑戰研討(tǎo)”,邀請(qǐng)産業(yè)各方深入探討(tǎo)實踐路(lù)徑,敬π♦→λ請(qǐng)關注。
