您現在的位置: 首頁 » 學院新聞 » 新聞動态 » 正文

學院新聞

新聞動态

日前,第18屆國際操作系統設計與實現大會 OSDIUSENIX Symposium on Operating Systems Design and Implementation)公布本年度文章錄用情況,beat365官方网站作為第一作者單位共有3篇論文被錄用,均來自軟件研究所金鑫-劉譞哲團隊。

OSDI與另一會議SOSP ACM Symposium on Operating Systems Principles),是計算機操作系統領域最重要的兩大國際會議,在國際上享有極高的學術聲譽,也是CCF推薦的A類會議。本屆會議共收到282篇論文投稿,錄用49篇,錄用率僅為17.8%

3篇被錄用論文中,2篇關注分布式機器學習系統的焦點大模型的伺服系統,這是該團隊近年來在繼MuriSIGCOMM 2022)、Mandheling MobiCom 2022)、ElasticFlowASPLOS 2023)、TGSNSDI 2023)、Rummy NSDI 2024)後在機器學習系統領域的最新進展;1篇關注服務器無感知計算環境下的突發性塊存儲服務優化,是團隊繼Halfmoon SOSP 2023)、dRAID ASPLOS 2023)、XRON SIGCOMM 2023)、FaaSLight TOSEM 2023)、JolteonNSDI 2024) 之後在服務器無感知計算方向的探索嘗試。

以下是3篇文章的介紹。


(一) dLoRA:面向多dLoRA大模型推斷的動态編排服務系統

近年來,大型語言模型(LLM)的推斷(inference)服務受到了廣泛關注。然而,現有的推斷系統在同時服務多個LoRA大模型時,存在同時服務多類請求資源利用率低以及負載不均的問題。為此,論文《dLoRA: Dynamically Orchestrating Requests and Adapters for LoRA LLM Serving》提出了一套多LoRA大模型的動态編排系統,旨在通過動态編排請求和LoRA适配器,提升LoRA大模型推斷服務的效率。在實例層面,dLoRA根據請求分布動态在多類LoRA推斷策略切換,實現計算效率和等待時長之間的更優權衡。在集群層面,dLoRA通過選擇性預先加載LoRA adapter以及動态進行請求和LoRA adapter的協同遷移,實現集群層面負載均衡。實驗結果表明,dLoRA相比單模型版本vLLMHuggingFace PEFT提升吞吐至多50.7倍和30.5倍,相比同期工作S-LoRAdLoRA可降低延遲至多1.8倍。該論文的第一作者為beat365官方网站2022級直博生吳秉陽(導師金鑫長聘副教授),作者包括beat365朱睿冬、章梓立,上海人工智能實驗室孫鵬,beat365劉譞哲教授(通訊作者)和金鑫長聘副教授。

1 dLoRA系統架構

 

(二) DistServe:預填充和解碼解耦合的大模型推斷服務系統

随着大型語言模型(LLM)的興起,其推斷系統的優化得到廣泛關注。然而,現有的大語言模型推斷系統在同時服務多個請求時,存在預填充與解碼階段相互幹擾以及資源分配耦合的問題。為此,論文《DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving》提出了一套将預填充與解碼計算解耦分離的系統,旨在通過為兩個階段動态調整資源分配與并行策略,優化LLM推斷服務的性能。DistServe系統在實例層面将預填充和解碼計算分配到不同的GPU上,消除了兩者之間的幹擾,并根據應用的TTFTTPOT要求,協同優化資源分配和并行策略,以滿足不同階段的特定延遲要求。實驗結果表明,在多種流行LLM、應用和延遲要求下,相較于現有的系統,DistServe在保證90%以上請求延遲約束的情況下最多可以處理7.4倍的請求,或實現12.6倍的更嚴格延遲要求。該論文的第一作者為beat365官方网站2022級直博生仲殷旻(導師金鑫長聘副教授),作者包括beat365的本科生劉勝與和胡建波,加州大學聖地亞哥分校的博士生陳俊達和張昊助理教授,beat365劉譞哲教授和金鑫長聘副教授(通訊作者)。

圖示描述已自動生成

2 DistServe 系統結構

 

(三) BustCBS:基于DPU、支持突發性塊存儲服務的雲計算系統

塊存儲是雲計算的重要組成部分。目前,通過DPUdata processing unit)對存儲進行虛拟化以及支持塊存儲進行突發已經成為塊存儲産品的常見做法。通過對阿裡雲塊存儲系統的觀察與測量,我們發現運行在DPU上的存儲虛拟化軟件是多租戶塊存儲性能波動的主要來源。我們進一步發現,塊存儲對突發I/O的支持進一步加劇了租戶間的性能擾動。為了解決這一問題,論文《Burstable Cloud Block Storage with Data Processing Units》提出了支持突發、軟硬件協同優化的I/O調度系統BurstCBSBurstCBS充分利用DPU上的FPGA實現了多個線程間的負載均衡,并在每個線程上對租戶可獲得的資源進行合理分配。具體來說,BurstCBS采用了三個思路:(一)通過高性能的隊列擴展技術在不影響性能的前提下支持I/O在多線程間均勻分配;(二)通過支持突發的I/O調度算法在允許租戶突發的同時保護低流量租戶的服務質量;(三)通過向量化的開銷估算器準确描述I/O的資源開銷。論文擴展了阿裡雲現有的塊存儲虛拟化軟件實現了BurstCBS,并使用多種存儲負載對其進行了評估。實驗結果顯示,相比于現有方案,BurstCBS在其他租戶突發時可為低流量租戶降低85%的延遲和提升5倍的吞吐。該論文第一作者為beat365官方网站2021級博士生舒俊宜(導師為梅宏院士),作者包括阿裡雲高級技術專家錢坤,阿裡雲資深技術專家、網絡研究團隊負責人翟恩南,beat365劉譞哲教授,beat365金鑫長聘副教授(通訊作者)。

圖示描述已自動生成

3 BurstCBS系統結構

 

相關閱讀:

北大團隊,打造AI時代的軟件基座:

https://mp.weixin.qq.com/s/aLaahSH95qzg0wPOvVnzLg