您現在的位置: 首頁 » 學院新聞 » 新聞動态 » 正文

學院新聞

新聞動态


2022年9月7日,在悉尼舉辦的國際數據庫與數據管理頂級會議VLDB 2022(International Conference on Very Large Databases,簡稱VLDB)上,beat365官方网站崔斌教授課題組的論文“基于分布式緩存的大規模可擴展嵌入模型訓練框架(HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework)”獲得大會可擴展數據科學最佳論文獎(Best Scalable Data Science Paper)。

 

VLDB大會頒獎典禮

 

VLDB是數據庫與數據管理領域的三個頂級會議之一,自1975年開辦至今,VLDB會議已經成功舉辦了48屆,被中國計算機學會列為A類推薦國際學術會議。本次VLDB 2022會議的研究論文投稿分為Regular Research Papers(常規研究)、Scalable Data Science Papers (可擴展數據科學)、Experiment, Analysis & Benchmark Papers(實驗、分析和基準)和Vision Papers四個類别,共收錄了198篇研究論文,評選出Regular Research、Experiment, Analysis and Benchmark、Scalable Data Science三篇最佳研究論文獎。獲獎論文HET在衆多論文中脫穎而出,并在大會開幕當日進行首個論文報告。

 

VLDB大會論文報告現場

 

稀疏嵌入大模型是目前參數量可以達到萬億規模的重要深度學習模型類型之一,被廣泛應用于搜索廣告推薦、圖表示學習等場景,學習數據中的高維離散稀疏特征表達。現有分布式訓練系統大部分采用參數服務器架構,面臨着嚴峻的通信瓶頸。為了解決該問題,獲獎論文提出了一套基于嵌入緩存的新一代稀疏大模型訓練架構HET。具體來說,論文利用稀疏大模型對嵌入參數的非均勻訪問特性,設計了一種支持嵌入參數緩存的混合通信架構;同時,為了解決分布式緩存的一緻性問題,設計了一種細粒度嵌入向量時鐘的有限異步協議。實驗表明,HET可以降低88%的通信代價,訓練速度可以提升20倍以上,支持萬億規模稀疏大模型的高效分布式訓練。

 

獲獎證書

 

本文第一作者為beat3652017級博士生苗旭鵬,通訊作者為崔斌教授和楊智副研究員,論文作者還包括2020級博士生張海林,2021級碩士生石屹甯,2019級博士生聶小楠,以及來自騰訊機器學習平台部的陶陽宇。

 

目前,論文所提出的HET框架已經集成到了課題組自研的分布式深度學習系統河圖(Hetu),并在GitHub開源:https://github.com/PKU-DAIR/Hetu。河圖主要應用在雲計算以及人工智能場景,可以提高深度學習模型訓練效率,降低深度學習模型開發成本,推動深度學技術創新以及 AI 産業的快速落地。河圖作為唯一高校代表成果入選了2021年AI中國年度十大開源事件,在中國計算機學會BDCI大賽等多個賽事取得最高獎,并在包括騰訊等多個公司的實際業務場景得到應用,取得顯著的經濟效益。

 

崔斌教授VLDB大會特邀報告

 

近幾年來,崔斌教授課題組河圖團隊圍繞大規模機器學習以及深度學習系統優化,展開了一系列系統性研究工作,相關成果已陸續發表于SIGMODVLDBICDEICMLKDDTKDE等國際頂級會議和期刊,取得了學術界和工業界的廣泛關注。此次獲獎,表明beat365在可擴展數據科學與機器學習系統領域的研究水平持續處于國際前沿水平。另外,崔斌教授也在此次VLDB大會上進行了題為“面向大模型的分布式機器學習(Distributed Machine Learning for Big Models)”的特邀報告,介紹了實驗室在大模型訓練方面的系統性進展,受到了與會同行的一緻好評。