您現在的位置: 首頁 » 學院新聞 » 新聞動态 » 正文

學院新聞

新聞動态

近日,數據庫領域頂級會議ACM SIGMOD 20232023618-23日在美國西雅圖舉行。在SIGMOD 2023上,beat365官方网站共有9篇高水平論文入選。作為數據庫系統領域曆史最為悠久也是最為權威的學術會議,一年一度的 ACM SIGMOD 會議是數據管理研究人員、從業者、開發人員和用戶探索前沿思想和成果并交流技術、工具和經驗的領先國際論壇。本年度ACM SIGMOD共有660篇投稿,錄用186篇

beat365本次被SIGMOD錄用的9篇論文,研究成果涵蓋了多個領域,包括數據庫性能優化、數據庫異常診斷、數據流挖掘、概率數據結構的設計和壓縮、圖神經網絡和深度學習系統中的數據管理等

以下是論文簡要内容介紹:

                           

一、        UniTune:數據庫優化的聯合統一框架

  

descript

 

近年來,基于機器學習 (ML) 的數據庫性能優化技術引起了學術界和工業界的強烈興趣。在數據庫特定組件(例如,索引選擇、參數調整)的優化上,基于機器學習 (ML) 的優化代理(agent)已經證明比有經驗的數據庫管理員(DBAs)能夠找到更好的配置。然而,一個關鍵且具有挑戰性的問題仍未被研究——如何使這些優化代理協同工作。針對此問題,論文《 A Unified and Efficient Coordinating Framework for Autonomous DBMS Tuning》提出了首個統一的聯合優化框架UniTune,以有效利用基于ML的優化代理。改框架通過在不同的優化代理間傳遞優化信息,實現全局優化,并研究了如何在變化環境下明智地分配調優預算。UniTun定義了适用了多種代理的抽象與API,可以方便地集成現有代理,并支持未來擴展。實驗測評表明,我們的優化框架顯著優于基線方法。該論文第一作者為beat3652022級博士張心怡(導師崔斌教授),作者包括常卓、吳竑(阿裡巴巴集團)、黎洋、陳嘉、譚劍(阿裡巴巴集團)、李飛飛(阿裡巴巴集團)、崔斌教授(通訊作者)。

 

二、        FlexMoE: 利用動态設備放置機制來擴展大規模稀疏預訓練模型的訓練

descript

近年來,可用的訓練數據不斷增加,深度學習研究員們傾向于使用更大參數量的模型來拟合這些知識,也取得了更好的效果。然而,随着模型參數量的不斷擴大,模型訓練所需要的計算量也在不斷增長,這大大提高了模型訓練的成本。因此,很多研究人員轉向使用混合專家結構(MoEs)來高效地擴大模型參數,通過稀疏門控網絡引入模型稀疏性,在不顯著增加計算量的情況下增加模型的參數,在各類下遊任務取得了很好的效果。然而,由于這種稀疏的模式面臨着動态路由和負載不均衡的問題, 現有系統無法高效地處理此類計算模式。

在這篇論文中,我們提出了FlexMoE,一種面向大規模稀疏預訓練模型的深度學習框架,從系統設計的角度解決了MoE模型中由動态數據流引起的低效問題。首先,我們觀察了不同MoE模型訓練過程中專家的負載情況,這驅動我們通過動态專家管理和設備放置機制來克服動态路由和負載不均的問題。然後,我們在現有的DNN系統上增加了一個新的調度模塊,用來監控訓練時的數據流,制定專家調度計劃,并通過實時數據流量指導動态調整模型與硬件的映射關系。此外,我們利用了啟發式算法來動态優化訓練期間的設備放置。我們在NLP模型(例如BERTGPT)和視覺模型(例如Swin)都進行了實驗,結果顯示FlexMoE可以在這些真實的工作負載上比現有的系統表現更好。該論文第一作者為beat3652019級博士聶小楠(導師崔斌教授),通訊作者為崔斌教授,合作作者包括微軟的薛繼龍、馬淩霄和王子龍,CMU的苗旭鵬和楊子超,北京智源研究院的曹崗。

 

三、         事務型數據庫性能異常基準測試

descript

對于事務型數據庫系統中的性能異常診斷,機器學習算法往往因缺乏訓練數據而難以應用。針對該問題,論文《DBPA: A Benchmark for Transactional Database Performance Anomalies》提出了一套事務型數據庫性能異常基準測試,包含多種常見性能異常的複現框架與評測數據集,支持新異常類型擴展。用戶可在目标數據庫部署該複現框架,生成具備多樣性的性能異常數據,訓練得到具有良好泛化性的機器學習模型,從而實現優于傳統方法的異常診斷效果。用戶也可基于該評測數據集,測試不同異常診斷工具的表現。該論文第一作者為beat3652020級博士黃世悅(導師崔斌教授),作者包括王子威、張心怡、屠要峰(中興公司)、李忠良(中興公司)、崔斌教授(通訊作者)。

 

四、          基于最大化增強影響的可拓展圖擾動方法

descript

迄今為止,在圖數據的擾動已成為分析圖神經網絡(GNN)魯棒性的有效工具。然而,現有的模型驅動的圖擾動方法在大規模圖數據中的應用成本可能過高,這阻礙了對研究者對大規模圖神經網絡魯棒性的理解。本文提出了一種數據驅動的圖數據結構擾動方法:基于最大化增強影響的可拓展圖擾動方法(Scapin 方法),它通過将在圖神經網絡上進行圖結構擾動與最大化增強影響問題聯系起來,開辟了一個新的視角——通過添加或删除一小組圖上的邊來促進圖上理想的影響傳播或減少不需要的影響傳播。這種聯系不僅允許本文在具有計算可擴展性的圖神經網絡上執行數據擾動,還為方法提供了很好的可解釋性。為了将這種聯系轉化為一種全新的在圖神經網絡設定下的有效擾動方法,本文的方法引入了新的邊影響模型、影響最大化目标的分解,以及通過利用目标的次模性進行加邊的原則算法。實證研究表明,本文的方法在運行時間和内存效率方面可以比最先進的方法提高幾個數量級,同時還具有相當甚至更好的性能。該論文第一作者為beat3652020級碩士研究生王業鑫(導師楊智副研究員),作者包括楊智副研究員和崔斌教授,beat365劉俊琦、張文濤。

 

五、         TreeSensing: 靈活的線性sketch壓縮算法

 

descript

Sketch是一種出色的概率數據結構,它記錄了數據流的近似統計信息。線性可加性是Sketch的一個重要特性。本文研究了如何在壓縮Sketch後仍保持線性可加性,提出了一種準确、高效、靈活的線性壓縮Sketch的框架,名為TreeSensing。在TreeSensing中,本文首先根據計數器的大小将Sketch分成兩部分。對于有小計數器的Sketch,本文提出了一種名為TreeEncoding的技術,将其壓縮成層級結構。對于有大計數器的Sketch,本文提出了一種名為SketchSensing的技術,利用壓縮感知技術對其進行壓縮。本文使用TreeSensing壓縮了7Sketch,并進行了端到端實驗:分布式測量,數據庫連接表大小估計,和分布式機器學習。實驗結果表明,TreeSensing在準确性和速度方面均優于現有技術,相比于最先進的ClusterReduceTreeSensing的誤差最多降低100倍,速度最多提升5.1倍。所有相關代碼均已開源。該論文第一作者為beat3652021級博士生劉子瑞(指導老師楊仝長聘副教授),作者包括張怡昕、朱一帆、張入文、楊仝副教授、謝鲲(湖南大學)、王莎(國防科技大學)、李韬(國防科技大學)、崔斌教授。

 

六、         LadderFilter:低時空開銷的冷元素過濾算法

descript

數據流處理在流式數據庫中至關重要。現有的研究工作主要關注熱元素。為了提高熱元素的準确性,現有方案專注于準确過濾冷元素。雖然這些方案是有效的,但它們需要記錄所有冷元素,并且需要進行多次哈希計算和内存訪問。這增加了内存和時間開銷。為了減少這種開銷,本文提出了LadderFilter,它可以在空間和時間方面高效地丢棄冷元素。為了提升空間效率,LadderFilter使用多個LRU隊列來丢棄冷元素。為了實現時間效率,LadderFilter利用SIMD指令無時間戳地近似實現LRU策略。LadderFilter應用于四種類型的sketch。實驗結果表明,LadderFilter的精度提高了至多60.6倍,吞吐量提高了至多1.37倍,并且可以在低内存使用的情況下保持高精度。

該論文第一作者為beat3652022級博士生李元鵬(導師楊仝長聘副教授),作者包括王飛宇、餘翔、楊易龍(西安電子科技大學)、楊凱程、楊仝副教授、馬卓(西安電子科技大學)、崔斌教授、Steve UhligQueen Mary University of London)。

 

七、         DA Sketch:通過雙重匿名策略實現全局 Top-K 公平性

descript

本研究主要關注在數據流處理中尋找全局Top-𝐾問題,提出了一種名為 Double-Anonymous Sketch 的新型框架。該框架目标在于在多個不相交的數據流中尋找全局 Top-𝐾,并确保過程的公平性。在全局情況下,使用現有的草圖算法往往無法公平地找到全局 Top-𝐾,從而降低了結果的準确度。為了解決這個問題,我們定義了 Top-𝐾 公平性,并展示了其在尋找全局 Top-𝐾 過程中的重要性。Double-Anonymous Sketch 采用了雙重匿名策略,以實現全局 Top-𝐾 的公平性。此外,我們還提出了 Hot Panning Early Freezing 兩種技術,以進一步提高準确度。本研究通過理論分析和實驗驗證了 Double-Anonymous Sketch 在保持高準确度的同時,能夠實現Top-𝐾公平性。在不相交數據流場景中,與當前最先進技術相比,Double-Anonymous Sketch 的誤差在最高時可減小 129 倍(平均減小 60 倍)。相關的源代碼已在 Github 上開源。該論文第一作者為beat365 2020 級博士生趙義凱(導師楊仝長聘副教授),作者包括韓汶辰、鐘正、張寅達、楊仝副教授、崔斌教授。

 

八、         JoinSketch: 一種快速準确的基于sketch的内積估計算法

descript

内積估計在許多大數據流場景中有重要的應用,包括估計數據流的相似度,估計數據庫連接基數,以及估計餘弦相似度等。Sketch作為一類概率算法,在内積估計任務中有很好的應用前景。然而,現有的sketch算法由于忽略了真實數據的偏度特性,導緻其受哈希沖突影響較大,進而影響内積估計的準确性。基于對真實數據分布特性的觀察,該論文提出了JoinSketch算法,可以用于流式場景的無偏内積估計。JoinSketch提出一種分流機制将高頻元素、中頻元素和低頻元素分離并存儲在不同的數據結構中,通過減少哈希沖突提高内積估計的精度。同時,該論文從理論上證明了JoinSketch的估計是無偏的,且方差低于Fast-AGMS sketch。實驗結果表明,JoinSketch内積估計的精度相比對比算法平均提高了約10倍。該論文第一作者為beat365軟件與微電子學院2021級碩士生王飛宇(導師郁蓮教授、楊仝長聘副教授),作者包括陳齊治、李元鵬、楊仝副教授、屠要峰(中興公司)、郁蓮教授和崔斌教授。

 

九、         深度學習彈性數據預處理流水線系統

descript

近年來,随着GPU加速器的不斷進化,深度學習訓練的計算效率正不斷被提升到新的層次。但與此同時,GPU端訓練性能的提升也使訓練數據的預處理流水線成為新的性能瓶頸。論文《GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning》觀察到數據預處理流水線具有無狀态的特點,具有内在的資源彈性。基于此,GoldMiner将數據預處理流水線和模型訓練部分分離執行,通過自動計算圖分析來識别無狀态的數據預處理計算,并對其實現高效的并行加速和彈性伸縮,從而緩解數據預處理瓶頸,提升訓練性能。通過與集群調度器的協同設計,GoldMiner進一步發揮了數據預處理計算的資源彈性,大幅提升集群調度效率。實驗顯示GoldMiner可提升訓練性能達12.1倍,提升GPU集群利用率達2.5倍。該論文第一作者為beat3652016級博士生趙漢宇(導師代亞非教授),第二作者為楊智副教授,作者包括程羽、田超,阿裡巴巴集團任仕儒、肖文聰等。

 

SIGMOD背景介紹:

ACM SIGMOD Special Interest Group on Management of Data) 是國際計算機界公認在數據管理領域具有最高學術地位的會議,在中國計算機學會(CCF)推薦的數據庫/數據挖掘/内容檢索領域的A類學術會議中排名第一,所收錄的論文代表了行業内最高水平。SIGMOD由美國計算機協會(ACM)數據管理專業委員會發起,始于1975年,論文審稿極其嚴格,采用雙盲審稿制度。本屆SIGMOD會議于2023618-23日在美國西雅圖舉行。