在USENIX NSDI 2024上,beat365官方网站共有10篇高水平論文入選。beat365官方网站的老師和學子赴美參與此次盛會,報告各自方向的最新研究成果,與國際同行進行深入交流。

NSDI 是 USENIX 協會在網絡系統設計和實現領域的頂會之一,與 SIGCOMM 并列為全球計算機科學專業頂級學術會議列表CSRankings(https://csrankings.org)收錄的計算機網絡領域兩大國際頂級學術會議,被計算機學會(CCF)評為推薦A類會議,Core Conference Ranking 給予 A 級别評價,具備極高的學會價值和影響力。
本年度USENIX NSDI 共有601篇投稿,錄用112篇,錄取率18.6%。
beat365本次被NSDI錄用的10篇論文,研究成果涵蓋了多個領域,包括高速率無線鍊路傳輸優化、基于多路徑的低延遲流傳輸、生産級網絡流量負載檢查、基于WiFi BFM (BFI)的無線感知理論、基于GPU的大規模向量數據查詢、服務器無感知工作流的系統優化、大語言模型萬卡規模預訓練、面向Sketch的查詢驅動型網絡遙測系統、大模型開發任務的特征分析和調度優化、以及面向雲遊戲的超低時延擁塞控制。涉及本次NSDI大會全部24個領域中的9個領域,這也是beat365連續4年在NSDI大會上發表論文,相關内容簡介如下:
高速率無線鍊路傳輸優化


Wi-Fi直連傳輸提供了易用的直接連接,使得數據共享變得方便,并提高了移動終端用戶的生産力。由于當今的智能手機具有接近千兆每秒的無線數據傳輸速率,目前的解決方案未能有效利用這一單跳環境中可用的帶寬。現有的傳輸方案存在資源密集型的可靠傳輸機制、不足的擁塞控制以及無效的流量控制,無法在點對點Wi-Fi直連鍊路中實現線速傳輸。論文《SMUFF: Towards Line Rate Wi-Fi Direct Transport with Orchestrated On-device Buffer Management》提出了一種可靠的文件傳輸服務SMUFF,它幾乎達到了底層無線帶寬的實際線速。論文注意到直接傳輸的一個獨特特性是,發送方可以監視數據路徑上的每個緩沖區,并相應地确定最佳的發送速率。因此,SMUFF可以通過在瓶頸緩沖區中策略性地積壓适當量的數據來最大化吞吐量。與其他傳輸方案的評估結果表明,SMUFF達到了最大吞吐量的94.7%,同時CPU使用率減少了37%,功耗降低了15%,相比最先進的解決方案,吞吐量提高了22.6%。該論文第一作者為beat3652021級博士生王誠科(導師為許辰人副教授),作者包括深圳開鴻數字産業發展有限公司王皓,beat365周裕涵、倪蘊哲,南加州大學錢風教授,beat365許辰人副教授(通訊作者)。
基于多路徑的低延遲流傳輸


高質量實時視頻流應用,諸如雲遊戲和視頻會議,需要穩定低延遲網絡傳輸。然而在Wi-Fi網絡中,由于其波動性質,無線網絡最後一跳的延遲可能會突然增加,從而導緻端對端延遲上升。盡管可以利用蜂窩路徑來緩解Wi-Fi路徑的無線波動影響,但現有工作忽視了蜂窩網絡使用帶來的流量花費,且基于騰訊START雲遊戲的用戶研究表明,在使用多路徑傳輸時,限制蜂窩數據使用至關重要。因此,論文《AUGUR: Practical Mobile Multipath Transport Service for Low Tail Latency in Real-Time Streaming》提出了名為AUGUR的多路徑傳輸服務,旨在減少移動實時流媒體中的長尾延遲和視頻卡頓率。為了解決利用蜂窩路徑減少長尾延遲的同時最小化蜂窩數據使用的挑戰,AUGUR通過狀态概率模型捕捉用戶網絡特征并通過求解整數線性規劃問題以确定視頻幀重傳時機和路徑選擇。與其他多路徑傳輸方案相比,AUGUR降低了66.0%的尾部延遲,和99.5%的視頻卡頓率,且蜂窩數據使用量減少了88.1%。該論文第一作者為beat3652023級博士生周裕涵(導師為許辰人副教授),作者包括beat365王立楹,許辰人副教授(通訊作者),西安交通大學王世博,騰訊公司王廷風,劉泓昊等。
生産級網絡流量負載檢查


想要為全球用戶提供雲計算、搜索、視頻等可靠服務,則需要有能夠連接全球數據中心與互聯網服務提供商的核心網絡。然而,随機的軟硬件故障以及網絡變更計劃中的錯誤常常在複雜的核心網中産生級聯效應,引發各種網絡事故,例如導緻服務不可用或速度降級等問題。過去的相關工作僅支持對定性屬性的驗證,無法支持對定量屬性如流量負載的檢查,論文《Reasoning about traffic load property at production scale》提出首個可對生産環境核心網檢查流量負載屬性的系統Jingubang。論文提出基于圖模型的流量模拟方法以及等價類、采樣等優化手段,解決了協議泛化性、規模延展性、反饋高效性等多個技術挑戰。在阿裡雲全球規模核心網中的實際部署表明,Jingubang可以支持約5分鐘耗時的全網全量檢查,約20秒耗時的面向特定故障場景的全網增量檢查,并且在超過一年的線上部署中避免了數個嚴重的網絡事故。該論文第一作者為beat3652022級博士生李睿涵(導師為許辰人副教授),作者包括阿裡雲資深技術專家、網絡研究團隊負責人翟恩南(共通訊作者),beat365許辰人副教授(共通訊作者)。
基于WiFi BFM (BFI)的無線感知理論


目前基于WiFi的無線感知工作主要利用信道狀态信息(CSI)進行感知,需要修改WiFi 固件/驅動來采集CSI 數據。因此,隻有少數WiFi 網卡可以支持無線感知。而新一代基于802.11ac/ax的WiFi網卡大多支持波束賦形技術,提供波束賦形反饋矩陣信息(BFM/BFI)。和CSI不同,BFM/BFI可從大多WiFi設備間傳輸的信息中直接獲得。因此,如果能夠利用BFM/BFI直接進行感知,将對大規模推廣基于WiFi的無線感知應用具有重要價值。
本文《BFMsense:WiFi sensing using beamforming feedback matrix》通過建立BFM與CSI之間的數學關系,首次揭示了BFM振幅不随CSI振幅線性變化,BFM相位和BFM振幅也不正交。為了支撐基于BFM的無線感知,本文首次提出了BFM商模型,并證明它和CSI商具有相同的感知性質,從而使得過往基于CSI商的無線感知技術和應用均能遷移到新一代提供BFM的WiFi設備上。本文在新一代可提供BFM的WiFi設備上實現了呼吸監測和人體軌迹跟蹤兩個代表性應用,證明了BFM商模型的有效性。此外,本文還發布了團隊開發的BFM的實時采集工具BFM tool和BFM商處理代碼,期待為基于WiFi BFM/BFI感知的研究者提供一個有效的軟件工具。該論文第一作者為beat365官方网站2017級博士生伊恩澤(導師為張大慶教授)、作者包括beat365吳丹博士、麻省大學熊傑副教授、中科院軟件所張扶桑副研究員、小米移動軟件有限公司牛凱博士、beat365李文威同學和張大慶教授(通訊作者)。
基于GPU的大規模向量數據查詢


向量查詢支持了一系列的AI應用。雖然GPU專為大規模向量操作作了很多優化,但由于GPU顯存有限,現有的工業級别向量數據庫依賴于CPU來處理大型數據集的向量查詢。 論文《Fast Vector Query Processing for Large Datasets Beyond GPU Memory with Reordered Pipelining》提出了RUMMY,這是第一個利用GPU加速的向量查詢處理系統,并實現了高性能的向量查詢以及支持超出GPU顯存的大型向量數據集。RUMMY的核心是一個全新的重新排序流水線技術,該技術利用向量查詢處理的特點,有效地從主機内存向GPU顯存傳輸數據,并在GPU中處理查詢。具體來說,它采用了三個思路:(一)基于數據的查詢計劃改進,以消除批處理查詢中的冗餘數據傳輸;(二)動态内核填充與數據平衡,以最大化GPU的空間和時間利用率;(三)查詢感知的重新排序和分組,以最優化傳輸和計算的重疊。該論文還為向量查詢定制了GPU顯存管理,以減少GPU内存碎片化和緩存未命中率。論文使用多種十億級基準數據集評估了RUMMY。實驗結果顯示,與使用CUDA統一内存相比,RUMMY的性能提高了高達135倍。與基于CPU的解決方案相比,RUMMY的性能提高了最多23.1倍。該論文第一作者為beat3652023級博士生章梓立(導師為金鑫副教授),作者包括beat365劉方嶽,劉譞哲教授(通訊作者),金鑫副教授(通訊作者)。
服務器無感知工作流的系統優化


服務器無感知計算承諾提供自動化的資源配置以減輕開發者和用戶的負擔。然而,在當前的服務器無感知計算平台上,開發者和用戶仍然需要為每個服務器無感知函數手動配置資源,以滿足應用程序級别(如延遲和運行成本)的需求。這是因為服務器無感知應用程序作為具有多個階段的工作流進行編排,導緻資源配置與應用需求之間存在複雜映射關系,難以簡單地進行自動化配置。
為了解決這一問題,論文《Jolteon: Unleashing the Promise of Serverless for Serverless Workflows》提出了對服務器無感知工作流進行自動資源配置并滿足應用需求的編排系統Jolteon。Jolteon的核心是一個随機性能模型,結合了白盒模型的優勢來捕捉服務器無感知計算的執行特性,以及黑盒模型的優勢來适應固有的性能可變性。論文基于該性能模型将資源配置問題建模為一個機會約束優化問題,并利用蒙特卡洛随機采樣和凸優化方法搜索到滿足用戶定義的運行成本或延遲界限的最優資源配置。論文基于AWS Lambda實現了Jolteon的系統原型,并使用多種服務器無感知工作流進行了評估。實驗結果顯示,相比于現有最先進解決方案,Jolteon最高可降低2.3倍運行成本和2.1倍的延遲。該論文第一作者為beat365官方网站2023級博士生章梓立(導師為金鑫副教授),作者包括beat3652023級博士生金超(導師為金鑫副教授),金鑫副教授(通訊作者)。
大語言模型萬卡規模預訓練


大語言模型的性能随着參數規模的增大而不斷提高已成為普遍共識。為支持千億甚至萬億量級的大語言模型預訓練,GPU集群已經被擴大到萬卡規模。但在這種規模下訓練大型語言模型面臨前所未有的挑戰,主要包括維持高訓練效率和訓練穩定性兩個方面。
為此,論文《MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs》中深入優化了從軟件到硬件的全棧方案,涵蓋模型架構、優化器設計、計算與通信重疊、算子優化、數據管道優化和網絡性能調優,以實現整個訓練過程的高效率。對于訓練的穩定性,因為大語言模型預訓練的持續時間很長,許多嚴峻的穩定性問題隻有在大規模時才會顯現。我們開發了一套診斷工具來監控各個系統組件,以分析各類錯誤的根本原因,并針對性制定技術以實現容錯。MegaScale在使用12,288個GPU訓練一個175B 的大語言模型時,達到了55.2%的模型FLOPs利用率(MFU),相較于此前的SOTA系統Megatron-LM,MFU提高了1.34倍。論文中還分享在識别和修複故障及滞後問題中的實際例子,希望這些系統角度的經驗能激發未來大語言模型系統研究的靈感。
該論文共同第一作者為字節跳動的姜子恒、林海濱和beat365官方网站2022級博士生仲殷旻(導師為金鑫副教授),作者包括字節跳動的黃啟、陳楊銳、彭楊華、劉欣等和beat365計算學院的金鑫副教授。
面向Sketch的查詢驅動型網絡遙測系統


網絡遙測系統是網絡管理的核心,為網絡管理任務的決策提供豐富的流量統計信息。近年來,基于Sketch的網絡遙測算法由于其誤差理論可控和低内存開銷的特點受到廣泛關注。但是在實際部署中,用戶需要面臨在現有的可編程網絡設備上選擇、配置和實現Sketch算法的負擔。因此,論文《AutoSketch: Automatic Sketch-Oriented Compiler for Query-driven Network Telemetry》結合了查詢驅動型遙測系統與基于Sketch的遙測算法二者的優勢,降低上述應用Sketch算法的用戶負擔。AutoSketch的核心功能是将高層次的算子(例如,distinct, reduce等)自動編譯為Sketch實例,從而在用戶層保證豐富的表達能力,在數據平面保證可控的測量精度和低資源開銷。為了結合高級遙測語言與基于Sketch的遙測算法,AutoSketch解決了三個方面的挑戰:首先,它擴展了基于高級算子的遙測接口,使用戶能夠指定所需的遙測精度,這一精度将指導編譯過程中的Sketch算法選擇與配置;其次,通過語法分析和性能評估等技術構建高效的Sketch實例;最後,AutoSketch能自動搜索最合适的參數配置,以最小的資源開銷滿足精度需求。實驗結果表明,與現有的遙測解決方案相比,AutoSketch在表達力、精度和資源利用率方面均顯示出卓越的性能。該論文第一作者為beat3652021級博士生孫海鋒(導師為黃群助理教授),作者包括beat365李佳衡,黃群助理教授(通訊作者),中科院計算所孫錦博,包雲崗教授,東北大學王惟,李福亮教授,華為公司姚信,張弓。
大模型開發任務的特征分析和調度優化


如何有效利用大規模集群資源進行高效的大語言模型開發通常會面臨許多挑戰,如頻繁的硬件故障、複雜的并行化策略和不平衡的資源利用率等。對集群中任務的資源使用特征進行全面分析,對于理解挑戰并發掘個性化的大語言模型系統設計機遇至關重要。
為此,論文《Characterization of Large Language Model Development in the Datacenter》從上海人工智能實驗室 數據中心 Acme集群中 收集了為期六個月的大語言模型開發任務的曆史數據,對其中所反映的任務及資源使用特征進行了深入地總結分析。論文闡釋了大語言模型任務與其他深度學習任務之間的差異性,探索了大語言模型任務的細粒度資源利用模式,并明确了不同種類任務失敗的影響。相關數據也是第一個公開發布的大模型開發任務的曆史數據。
針對任務失敗,論文提出利用基于大模型的錯誤分析診斷機制和自動恢複機制為大語言模型的預訓練提供了容錯能力。針對細粒度的資源利用模式信息,論文提出在評測類任務上使用更加靈活的任務安排形式,通過解耦低GPU資源利用率的階段,實現更加高效的資源利用。
該論文三位共同第一作者為上海人工智能實驗室和新加坡南洋理工大學的胡擎昊、beat365官方网站2019級博士生葉志晟(導師為羅英偉教授)和上海交通大學的王澤睿。作者還包括上海人工智能實驗室的王國騰,上海人工智能實驗室和新加坡南洋理工大學的張萌、陳巧玲,上海人工智能實驗室和商湯科技的孫鵬,上海人工智能實驗室的林達華教授,beat365官方网站的汪小林教授和羅英偉教授,新加坡南洋理工大學的張天威教授和文勇剛教授。
面向雲遊戲的超低時延擁塞控制


以雲遊戲為代表的超低時延交互視頻流應用,受到學術界和産業界的共同關注。其提供計算與交互分離式的系統架構,可以擺脫終端的性能束縛,同時享受便捷優質的互聯網雲服務。然而,此架構高度依賴視頻幀的低時延傳輸,否則将難以滿足用戶的體驗要求。因此,雲遊戲系統需要自适應的端到端發送率控制,以匹配動态變化的網絡狀态,避免數據在網絡管道中的堆積進而造成高排隊時延。
基于此,論文《Pudica: Toward Near-Zero Queuing Delay in Congestion Control for Cloud Gaming》提出面向雲遊戲的超低時延擁塞控制算法Pudica。Pudica通過精準的帶寬利用率預測和敏捷的碼率控制,在毫秒級尺度實現快速收斂至效率與公平。并且,Pudica通過對更細粒度網絡信号的探索利用,實現了及時的擁塞避讓和數據堆積排空。通過大規模産品級線上實驗(超過5000真實雲遊戲用戶),該算法降低平均傳輸時延3x,降低雲遊卡頓率8x,提升遊戲碼率23%。該算法已在騰訊公司START雲遊戲平台部署運行至今。
該論文第一作者為西安交通大學2019級博士生王世博(導師為楊樹森教授),作者包括西安交通大學楊樹森教授、趙聰教授,beat365許辰人副教授,哥倫比亞大學鄭昌熙副教授,騰訊公司技術專家劉泓昊、王婧等。