近日,2024年度上(shàng)海市通信學會“算力浦江”專委會團體标準立項答辯會順利舉行,由恒爲(wéi / wèi)科技(上(shàng)海)股份有限公司牽頭,中國(guó)信通院華東分院等單位共同參與的(de)《智算可視化平台能力要(yào / yāo)求》團體标準也(yě)将正式進入編撰過程中。
随着AI大(dà)模型的(de)火爆,AI行業快速發展,越來(lái)越多的(de)科技公司陸續推出(chū)千億、萬億參數規模的(de)LLM,而(ér)且LLM參數規模還在(zài)不(bù)斷擴大(dà),同時(shí)智算中心的(de)集群規模也(yě)越來(lái)越大(dà)(千卡集群、萬卡/十萬集群),其數據量和(hé / huò)複雜度呈指數級增長,而(ér)傳統數據中心運維手段已經無法滿足智算行業的(de)發展以(yǐ)及智算中心集群高效運維的(de)要(yào / yāo)求,這(zhè)就(jiù)給智算中心的(de)運維帶來(lái)了(le/liǎo)嚴峻的(de)考驗和(hé / huò)挑戰(異構算力集群管理複雜、網絡延時(shí)抖動和(hé / huò)帶寬瓶頸等),智算行業急需要(yào / yāo)高效運維、實時(shí)分析和(hé / huò)監控、問題及時(shí)預警、故障快速診斷、輔助決策支持、靈活可定制的(de)智算可視化解決方案。
智算可視化,是(shì)指利用計算、網絡、數據可視化以(yǐ)及AI等技術,實現對智算集群關鍵數據進行實時(shí)采集、監控、存儲、分析、預警,并将其可視化展現,幫助客戶實時(shí)監控智算中心的(de)運行情況,定位和(hé / huò)識别智算系統性能瓶頸、潛在(zài)問題和(hé / huò)故障原因,爲(wéi / wèi)智算中心提供高效、準确、可觀測的(de)運維支撐,并通過優化算力資源調度,保障智算系統穩定運行,提升智算中心整體服務能力。
目前智算可視化行業解決方案存在(zài)跨平台适配集成複雜、采集維度和(hé / huò)測量精度不(bù)夠、多維度全方位可視化展示的(de)客戶體驗不(bù)好等痛點問題,也(yě)缺少統一(yī / yì /yí)可參考的(de)标準規範。
恒爲(wéi / wèi)科技積極聯合業内具有廣泛影響力的(de)權威機構,共同引導和(hé / huò)推動《智算可視化平台能力要(yào / yāo)求》團标草案的(de)制定工作。主要(yào / yāo)内容包括:
智算資源可視化
智算資源調度和(hé / huò)任務可視化
智算平台可視化
智算應用可視化
智算可視化平台展現
智算可視化監控指标
恒爲(wéi / wèi)科技緊緊把握産業技術趨勢和(hé / huò)市場發展動向,緻力于(yú)推動智算行業的(de)标準化與規範化,助力行業健康發展。公司将通過與行業權威機構、國(guó)内頭部的(de)光通信廠商、國(guó)産交換芯片、GPU/DPU/TPU芯片廠商的(de)緊密合作,推動團标的(de)編撰和(hé / huò)推廣,爲(wéi / wèi)“算力浦江”行動計劃的(de)實施提供技術和(hé / huò)标準指引,進一(yī / yì /yí)步助力智算行業健康有序發展。