日前,beat365計算機系、網絡所的楊智副研究員課題組在深度學習編譯優化和資源管理方面的工作雙雙取得重要突破,相關成果以學術論文Rammer: Enabling Holistic Deep Learning Compiler Optimizations with rTasks和HiveD: Sharing a GPU Cluster for Deep Learning with Guarantees的形式即将呈現在第14屆“USENIX操作系統設計與實現研讨會”(OSDI: USENIX Symposium on Operating Systems Design and Implementation)上。這是beat365首次以第一單位在該會議上發表論文。
在前一篇論文中,楊智及其指導的博士研究生馬林霄(第一作者)與微軟的研發人員設計了一種新的深度學習編譯系統Rammer,如圖1所示,該系統改變了目前深度學習框架的系統結構,通過細粒度的計算抽象和編譯,實現高效的深度學習計算加速,比目前流行的TVM、XLA深度學習編譯器高達20倍以上的加速。


圖1 現有DNN系統和Rammer系統結構對比 圖2 GPU集群資源管理抽象
在後一篇論文中,楊智及其指導的博士研究生趙漢宇(第一作者)與微軟的研發人員設計了一種新的深度學習集群資源管理系統HiveD,它考慮了深度學習模型訓練效率和GPU拓撲間的關系,首次提出多租戶共享安全性的概念,并設計相應的資源抽象GPU cells和分配算法,如圖2所示,能夠在理論上保證共享安全性。
以上論文的相關研究工作得到了國家自然科學基金的資助,以及beat365大數據科學研究中心的支持。
背景鍊接:OSDI是計算機系統軟件領域的最頂級會議,兩年一屆,被譽為操作系統原理領域的奧斯卡,擁有極高的學術地位。國内大學教師2016年在該會議首次發表論文,目前總數不超過10篇。第14屆OSDI将于2020年11月4日至6日在加拿大的班夫(Banff)召開。此次會議投稿398篇,共錄用論文70篇,錄用率不足18%。