您現在的位置: 首頁 » 學院新聞 » 新聞動态 » 正文

學院新聞

新聞動态

近日,beat365軟件研究所金鑫副教授、劉譞哲研究員課題組傳來喜訊,課題組在泛在計算系統下的軟件定義方法和系統連續取得進展,在國際頂級會議ACM SIGCOMM 2022上錄用論文2篇,在ACM MobiSys 2022上錄用論文1篇。

 

互聯網及其延伸正在驅動信息空間、物理世界和人類社會的不斷滲透并融合,形成泛在計算環境,計算系統的形态正在發生新一輪的變化。為了建設“高速泛在、天地一體、雲網融合、智能敏捷、綠色低碳、安全可控”的新型數字信息基礎設施,基礎系統軟件必須支持分布、異構的資源之間高效、按需、智能的共享和調度。自“軟件定義網絡”在網絡資源管理中取得巨大成功後,“軟件定義”被認為是構造下一代泛在計算系統的主流思想之一,相關研究十分活躍。

 

近年來,beat365官方网站金鑫副教授與劉譞哲研究員一起,圍繞“泛在資源虛拟化+管理任務可編程”的軟件定義基本原理,在泛在計算系統軟件的基本性質、形态結構、構造方法和運行機理,開展了一系列的探索和研究,連續取得了一系列重要進展。

 

軟件定義的基礎在于構造可靠的可編程平面。而泛在計算環境下,各類領域特定硬件(ASIC)、管理程序、編譯器均不可避免會産生錯誤,且彼此交織混雜。論文《Meissa: Scalable Network Testing for Programmable Data Planes》針對等多源複雜錯誤對可編程數據平面可靠性問題的挑戰,提出了一種基于領域特定代碼概要(code summary)的高可擴展自動化測試技術,在不損失覆蓋率的前提下約減了程序控制流圖,實現生産級規模的可編程數據平面程序100%的路徑覆蓋率。該論文發表于頂級會議ACM SIGCOMM 2022,第一作者為計算機專業2018級本科生鄭乃千同學,這也是中國首篇本科生作為獨立第一作者的SIGCOMM論文。

 

1 Meissa:基于領域特定代碼概要的可編程平面的可靠性增強方法

 

軟件定義需根據工作負載和應用場景來支持可編程平面對底層各類資源的按需調度。随着機器學習成為一類重要的工作負載,課題組圍繞集群分布式機器學習(Distributed Machine Learning)和終端機器學習(On-Device Machine Learning)兩類場景下的模型訓練任務,分别提出了新的資源管理和調度方法。

 

分布式機器學習的模型訓練是學術界研究熱點。但現有方法大多假設訓練任務負載獨占GPU,且均未考慮共享多種資源,導緻了較低的資源利用率,并限制了任務完成效率。論文《Multi-Resource Interleaving for Deep Learning Training》提出針對CPU、GPU、存儲和網絡等多種資源的協同調度方法MURI,根據深度學習分階段、疊代的訓練特征,設計了細粒度的深度學習負載共享資源的多資源交錯(multi-resource interleaving)機制,并提出了基于帶花樹算法的調度算法,以最大化交錯效率,顯著提升資源利用率并縮短任務完成時間。基于真實集群和生産環境軌迹的實驗表明,該方法可縮短平均任務完成時間(JCT)3.6倍,縮短總完工時間(Makespan)1.6倍。該論文發表于頂級會議ACM SIGCOMM 2022,第一作者為2021級直博士生趙怡浩同學。

 

2 MURI:面向分布式機器學習多資源管理的軟件定義方法

 

終端機器學習在隐私計算、惡劣環境(如無網絡連接)等場景下獨具優勢,但終端設備計算、存儲和電能資源受限也帶來更多挑戰。論文《Melon: Breaking the Memory Wall for Resource-Efficient On-Device Machine Learning》提出了Melon内存自适應優化框架及其三項創新技術,即,面向深度學習的内存分配、漸進式重計算策略生成和動态内存預算調整,實現對終端内存管理的深度軟件定義。實驗表明,相比于基線方法,Melon可以在終端設備上提升至多4倍的訓練批大小,大幅縮短聯邦學習場景中終端訓練的收斂時間,大幅減小動态内存場景中上下文切換的開銷,而且極大地降低了能耗。該論文發表于頂級會議ACM MobiSys 2022,第一作者為2020級直博生王啟鵬同學。值得一提的是,這是課題組繼DeepCache(MobiCom 2018)、ELSA(WWW 2019,中國學者首個WWW最佳論文獎)、Elf(MobiSys 2020)、FLASH(WWW 2021)之後,在面向終端機器學習系統的軟件定義方法方面取得的又一新進展。


3 Melon:面向終端機器學習内存自适應管理的軟件定義方法