您現在的位置: 首頁 » 學院新聞 » 新聞動态 » 正文

學院新聞

新聞動态

 

IEEE International Conference on Data Engineering (ICDE) 是數據庫和數據工程領域的頂級學術會議之一(與SIGMODVLDB并成為數據庫三大頂會),自1984年首次舉辦以來,每年舉辦一次。ICDE涵蓋廣泛的主題,包括數據庫系統及其架構、數據管理與存儲、大數據技術與應用、數據挖掘與知識發現、數據流處理與實時分析、分布式與并行數據庫、數據隐私與安全等。在IEEE ICDE 2024上,beat365官方网站共有多篇高水平論文入選,并進行了學術報告。具體如下:

 

1.    基于多精度貝葉斯優化的高效可靠索引推薦系統

    在關系數據庫管理系統中,索引選擇是提高數據庫性能的關鍵問題。然而,選擇最佳索引集是一項複雜且具有挑戰性的任務,需要在高效搜索大量潛在配置與精确評估索引性能影響之間取得平衡。論文“MFIX: An Efficient and Reliable Index Advisor via Multi-Fidelity Bayesian Optimization”提出了一種名為MFIX的索引推薦系統,通過多精度貝葉斯優化方法實現高效且可靠的索引選擇。MFIX結合了兩種索引驗證方式——快速的低精度成本估計和準确的高精度工作負載執行——以兼顧搜索效率和高質量索引方案。MFIX使用壓縮的樹狀結構搜索空間來消除冗餘配置,并在搜索過程中采用貝葉斯優化方法進行數據高效的搜索,從而顯著提高搜索效率。此外,MFIX還利用曆史任務作為輔助信息,通過自适應加權機制計算集成模型,以适應動态工作負載場景的索引推薦,并進一步加速搜索過程。實驗結果表明,MFIX在實際執行成本方面比現有的單精度方法提高了10.2%的性能,同時保持了較低的搜索成本。該論文第一作者為beat365官方网站2020級博士生常卓(導師為崔斌教授),作者包括張心怡、苗旭鵬、覃彥钊,騰訊的技術工程事業群數據平台部的黎洋。

descript

 

2.    基于多視角教師和課程數據融合的魯棒無監督領域适應

近年來,圖神經網絡在圖分類任務中展現了顯著的效果,但其對大量标注數據的依賴成為一大挑戰。無監督域适應旨在利用源域的标注數據,在目标域上完成任務。然而,現有的方法在面對圖數據時,無法解決領域差異和标簽稀缺的挑戰,進而導緻模型性能下降。論文“Multi-View Teacher with Curriculum Data Fusion for Robust Unsupervised Domain Adaptation”首次解決了上述挑戰。論文提出了一種名為 MTDF的圖無監督領域自适應框架,從模型和數據兩個角度實現了穩定的無監督域适應。在模型方面,MTDF采用了多教師框架,通過不同的更新策略實現魯棒的域适應,并利用局部隐式表示和全局顯式圖結構的互補視角一緻性學習,使模型能夠更有效地利用數據中的信息。在數據方面,MTDF通過統計一個包含源域結構信息的矩陣,在目标域生成模仿源域的數據,以克服領域差異的挑戰。實驗評估表明,MTDF在多個實際數據集上相比于現有的基線方法有 4% 的性能提升,同時保持了較高的效率和可擴展性。該論文第一作者為beat365官方网站2021級碩士生唐宇豪(導師為崔斌教授),作者包括羅鈞宇、楊靈、張文濤、崔斌,加利福尼亞大學洛杉矶分校的羅霄。

descript

 

3.    帶噪聲衆包場景下的圖主動學習

本文主要介紹了一種名為NC-ALG的新型基于圖神經網絡(GNN)的主動學習(AL)框架。盡管現有的基于GNNAL方法有效,但它們假設标注的标簽總是正确的,這與實際衆包環境中容易出錯的标注過程相矛盾。此外,由于這個不切實際的假設,現有的工作隻關注優化AL中的節點選擇,但忽視了優化标簽過程。NC-ALG是首個在帶噪聲衆包場景中優化節點選擇和節點标注過程的GNN-based AL框架。對于節點選擇,NC-ALG引入了一種新的測量方法來模拟影響力的可靠性,并提出了一種有效的影響力最大化目标來選擇節點。對于節點标注,NC-ALG通過考慮模型預測的标注和鏡像節點的标注,顯著降低了标注成本。在公共數據集上的實證研究表明,NC-ALG在達到基線方法GRAIN70.7%準确率效率時候,NC-ALG隻需要其三分之一的标注預算,為我們提供了新的視角和方法來處理實際衆包環境中标注的問題。該論文的第一作者為北大計算機學院2020級博士生張文濤(指導導師為崔斌教授),其他作者包括王業鑫,遊震邦,黎洋,曹剛,楊智和崔斌。

descript

 

4.    針對圖數據不均衡問題的平衡影響力最大化

本文主要關注了不平衡數據分類問題,這是許多實際場景中普遍存在的現象。盡管已經有很多現有工作從不平衡類樣本的角度對這個問題進行了深入研究,但我們進一步認為,圖神經網絡(GNNs)暴露出了一個獨特的不平衡來源,即在GNNs的影響傳播過程中,标記節點在影響節點數量上是不平衡的。為了解決這個以前未被探索的影響不平衡問題,我們将社會影響最大化與不平衡節點分類問題相結合,提出了平衡影響最大化(BIM)。具體來說,BIM貪婪地将僞标簽分配給可以在GNN訓練中最大化影響節點數量的節點,同時使每個類的影響更加平衡。在五個公共數據集上的實驗結果證明了我們的方法在緩解影響不平衡問題方面的有效性。例如,在訓練一個不平衡比率為0.1的圖神經網絡時,BIM在五個公共數據集上的F1得分方面,顯著優于最有競争力的基線,提高了0.6% - 9.8%。這項研究為我們提供了新的視角和方法來處理實際環境中的圖節點類别不平衡問題,具有重要的理論意義和實際應用價值。該論文的第一作者為北大beat3652020級博士生張文濤(指導導師為崔斌教授),其他作者包括高昕毅,楊靈,曹蒙,黃平,單九龍,陰紅志,崔斌。

descript

 

 

 

5.    面向泛化能力的學習型查詢優化器

近年來,基于深度強化學習(DRL)的查詢優化器得到了廣泛的關注。盡管當前基于DRL的查詢優化器在特定查詢工作負載上的性能與傳統方法相當,這些方法在處理訓練期間未見過的工作負載時難以産生正确的查詢計劃。論文“GLO: Towards Generalized Learned Query Optimization”針對這個問題,提出了包含以下幾種改進方案的GLO方法。首先,GLO不依賴于現有工作中廣泛使用的不可泛化的表獨熱編碼等方法,而是采用數據庫的統計信息對查詢中的表進行表示,并通過聚類标簽捕捉表之間存在的共性,從而增強GLO在不同場景中的泛化能力。其次,GLODRL的價值函數模型中引入Transformer結構來增強模型的信息捕捉能力,使模型能夠以更深層次的網絡和更多參數,更好處理各種不同的查詢。此外,GLO将外部的代價估計作為價值函數模型的輸入,以實現更好的泛化。第三,GLO通過比較自身和傳統方法分别生成的計劃,識别生成的計劃中較差的部分并替換。實驗表明,GLO優于之前提出的各種學習型查詢優化方法,在使用JOBExtended JOBStack數據集訓練、TPC-DS數據集進行測試時,與LOGERBalsa相比分别有1.4倍和2.1倍的性能提升。論文第一作者為beat365官方网站2022級博士研究生陳天異(導師為高軍教授),其他作者包括高軍,中興公司的屠要峰、徐墨。

descript

 

6.    通過對比學習增強神經主題建模的主題可解釋性

神經主題模型是知識發現領域中重要的無監督方法,用于從海量數據中提取有價值信息。然而,現有的神經主題模型在訓練時通常聚焦于最大化觀測數據的似然概率,而忽視了知識發現的初衷——從數據中挖掘易于人類專家理解的潛在知識。這種偏差限制了現有神經主題模型在失去狄利克雷先驗的情況下生成對人類專家高度可解釋的主題結果,在實際場景中的應用效果受到限制。為解決這一問題,論文提出了一種名為ContraTopic的神經主題模型正則方法。該方法在訓練過程中引入了約束生成主題可解釋性的監督信号,從而提升神經主題模型生成的主題質量。具體來說,ContraTopic方法從主題一緻性與主題多樣性這兩種衡量主題可解釋性的關鍵指标入手,設計了一個計算過程可微的正則項。在訓練過程中,對得到的主題-詞分布進行采樣,并基于對比學習的思想,鼓勵同一個主題内采樣詞的語義一緻性與不同主題采樣詞之間的語義多樣性,從而保證最終生成主題的可解釋性。實驗結果表明,ContraTopic在多個文本數據集上生成的主題一緻性與多樣性的自動評測指标都超過了現有最先進的基線方法。在人類評估的實驗中,相較于基線方法,ContraTopic也表現出了15%的性能提升。該論文的第一作者為beat365官方网站2019級博士生高鑫(導師為王亞沙教授),其他作者包括林陽、李瑞慶、王亞沙、初旭、馬辛宇和于海龍。

descript

 

7.    QuantileFilter:在線識别數據流中分位數異常的元素

在鍵值對流的分位數估計中,最近的研究在查詢靈活性方面取得了顯著進展,能夠使用統一的統計結構對任何鍵進行分位數估計。然而,盡管具備這種靈活性,這些方法的查詢速度仍然落後,無法匹配在線數據插入的高速度。這種離線查詢 + 在線插入的模式并不适合在線分位數估計。我們的目标是實時在線檢測那些分位數超過用戶查詢阈值的鍵,例如在網絡數據中識别95%延遲超過200毫秒的用戶。這些鍵被稱為分位數異常鍵,它們對于流數據中的異常檢測至關重要。本文提出了QuantileFilter,這是首個專為檢測分位數異常鍵而設計的近似算法。QuantileFilter通過以下方式克服了現有的限制:1) 實現快速在線計算,能夠在每個數據項恒定處理時間内處理流數據,使最先進技術(SOTA)的速度提高10100倍;2) 保持高空間效率,在保證相同精度的同時,節省50500倍的存儲空間。所有相關代碼均已在GitHub上發布。論文第一作者為beat365官方网站2021級博士研究生吳钰晗,通訊作者是其導師楊仝副教授。其他作者包括beat365的袁傲慕飛、施宙蚺、李元鵬、趙義凱、崔斌教授和美國馬裡蘭大學的陳沛慶。

descript

 

8.    SpeedSketch:檢測數據流中的超速元素

在數據流挖掘中,監控高速用戶并隔離其過度使用(稱為超速項目)對于防止系統過載和維護消息傳遞與網絡系統的公平性至關重要。然而,當前的方法在應對龐大的用戶基數時面臨可擴展性挑戰,主要是由于用戶數量增加而導緻的内存需求增加。我們發現,為所有用戶分配内存的效率很低,因為在任何給定時間内,隻有少數用戶表現出超速行為。為了解決這個問題,我們采用了一種近似算法的技術——Sketch算法,并設計了首個用于查找超速項目的素描算法,名為SpeedSketch:(1)可擴展性。SpeedSketch能夠在保持實際數據集中平均錯誤率為0.1%的同時,将用戶數量擴展到6430倍,節省内存空間;(2)準确性。從理論上講,SpeedSketch是唯一提供每用戶相對誤差界限的Sketch算法;(3)速度。SpeedSketch在一個具有每秒48億條項目處理能力的高速可編程交換機上實現。所有代碼已在GitHub上發布供參考。

論文第一作者為beat365官方网站2021級博士研究生吳钰晗,通訊作者是其導師楊仝副教授。其他作者包括邬涵博(共同一作,beat365)、賈成君(共同一作,清華大學)、彭博(beat365)、張子韫(beat365)、陳沛慶(美國馬裡蘭大學)、楊凱程(beat365)和崔斌教授(beat365)。

 

descript

 

 

 

9.    VisionEmbedder:支持常數時間查找、快速更新和極低失敗率的比特級緊湊鍵值存儲

在存儲空間極其寶貴的鍵值存儲場景中,我們關注的是一類僅存儲值的解決方案,這類方案具有高度的空間效率。盡管這些解決方案在分布式存儲、網絡和生物信息學中已經證明了其價值,但仍面臨兩個顯著問題:一是其空間成本仍有進一步降低的空間;二是它們易受更新失敗的影響,這可能導緻整個表格需要完全重建。

為了解決這些問題,我們引入了VisionEmbedder,這是一種緊湊的鍵值嵌入器,具有常數時間查找、快速動态更新以及接近零的重建風險。VisionEmbedder将存儲需求從每個鍵值對2.2L位減少到僅1.6L位(其中L是值的位數),并顯著降低了更新失敗的概率,減少幅度為n倍(例如,對于一百萬個或更多的鍵)。使用VisionEmbedder的折衷是某些數據規模上的查詢吞吐量會略有減少。VisionEmbedder的增強功能已經通過理論驗證,并在任何數據集上都有效。此外,我們已在FPGACPU平台上實現了VisionEmbedder,并将代碼開源。

論文第一作者為beat365官方网站2021級博士研究生吳钰晗,通訊作者是其導師楊仝副教授。其他作者包括beat365的王飛宇、朱一帆、樊卓宸、NUDT的熊智挺和beat365的崔斌教授。

 

descript

 

 

10. CodingSketch: 使用高效編碼和遞歸解碼優化分層Sketch

Sketch 是一種概率數據結構,因其在小内存條件下的高準确性而廣泛應用于各個領域。為高偏度的實際數據集設計層次化數據結構是 Sketch 的主要優化方向之一。然而,現有的 Sketch 與最佳方案之間仍存在較大的準确性差距。為彌補這一差距,我們提出了一種新的 Sketch,稱為 Coding Sketch。我們首次使用了層次結構和近乎無損的編碼-解碼來壓縮頻繁項,這顯著提高了頻繁項的準确性。此外,我們提出了無标志剪枝,以去除傳統層次結構中的附加标志位。因此,Coding Sketch 可以優化頻繁項和不頻繁項的頻率估計。我們的評估顯示,在相同内存成本下,我們的算法比最新技術的準确性高出10倍。所有相關代碼均已開源。

論文第一作者為beat365官方网站2023級博士研究生陳齊治,通訊作者是其導師楊仝副教授。其他作者包括洪逸森(beat365)、吳钰晗(beat365)和崔斌教授(beat365)。

descript

 

 

11. Newton Sketches: 類比牛頓冷卻定律在動态圖中估計節點親密度

動态圖在基于不同圖查詢的許多實際應用中越來越重要。由于數據量大且動态性強,人們常求助于計算近似解來回答圖查詢。然而,以往的工作主要基于頻率評估節點之間的關系,這在許多情況下是不足的。我們觀察到,這種關系的變化過程與自然界中的水冷卻過程非常相似。基于這一觀察,我們利用牛頓冷卻定律提出了一個新概念親密度,以描述節點之間的關系。目前,還沒有專門針對親密度估計的算法。由于親密度在每個時間單位内都會變化,主要挑戰在于如何高效地記錄和更新親密度。本文提出了一種名為Newton-Observe的新技術來解決這一挑戰。Newton-Observe的核心思想是我們僅在觀察/查詢時才衰減親密度。基于Newton-Observe,我們開發了一系列Newton草圖,以回答動态圖中親密度的三個基本任務。我們從理論上證明了Newton草圖可以在加性常數誤差範圍内估計真實親密度。我們在真實世界數據集和合成數據集上的實驗表明,Newton-Observe比草率解法的相對誤差縮小了最多570倍,并将吞吐量提高了最多1.62倍。所有源代碼均匿名開源于Github

論文第一作者為beat365官方网站2023級博士研究生陳齊治,通訊作者是其導師楊仝副教授。其他作者包括王珂(共同一作,耶魯大學)、李傲然(共同一作,beat365)、吳钰晗(beat365)和崔斌教授(beat365)。descript

 

 

12. One4All-ST: 面向任意可變區域時空預測的統一模型

時空預測是智慧城市的核心技術之一,其旨在根據曆史數據,預測未來某個時間點或時間段内特定區域内的趨勢或事件。例如,交通規劃者預測高峰時段的交通流量。這些預測能夠幫助我們做出更加精準和高效的決策。現有的時空預測模型通常需要先對區域進行劃分,這種做法存在兩個主要問題:一是需要多個預測模型來處理具有不同尺度和分區的區域預測請求,導緻成本高昂;二是不同模型可能會産生多個相互沖突的預測結果,造成預測混亂(即可變區域問題)。針對上述問題,本文提出了一個名為One4All-ST的框架,能夠對具有任意尺度和分區的可變區域 (Modifiable Areal Units)進行時空預測,極大地提高了預測的靈活性和準确性。One4All-ST框架設計了具有層次化空間建模和尺度歸一化模塊的時空網絡,能夠高效地學習多尺度表示并降低了開發多尺度時空預測模型的成本。此外,為了解決跨尺度預測的不一緻問題,本文提出了一種動态規劃方案,找到使得預測誤差最小化的最優組合。本研究不僅為可變區域的時空預測問題提供了新的解決方案,也為未來多尺度、多分區的城市數據分析和智能決策提供了強有力的技術支持。

論文第一作者是beat365官方网站20級博士生陳李越(指導教師王樂業助理教授),合作作者包括beat36523級博士生房江祎、劉騰飛(中國地質大學)、曹紹升(滴滴出行)以及beat365王樂業助理教授,其中曹紹升和王樂業助理教授為本論文的通訊作者。

descript

 

13. 面向大規模異構圖的高效去冗餘圖神經網絡架構

異構圖包含豐富的語義信息,可供異構圖神經網絡利用。 然而,由于計算成本較高,将異構圖神經網絡擴展到大圖具有挑戰性。現有的非參數異構圖神經網絡在訓練前使用通用子圖構造方法和均值聚合器來降低複雜性。盡管取得了成功,但他們忽略了異構圖的兩個關鍵特征,導緻預測性能較低。首先,他們在局部特征聚合和多個元路徑的全局語義融合期間采用固定的知識提取器。此外,他們隐藏了高階元路徑的圖結構信息,無法充分利用高階全局信息。論文“HGAMLP: Heterogeneous Graph Attention MLP with De-redundancy Mechanism”,首次解決了這兩個問題并提出了一種新的非參數異構神經網絡框架,稱為異構圖注意力多層感知(HGAMLP)。 HGAMLP框架采用本地多知識提取器來增強節點表示,并利用去冗餘機制從高階元路徑中提取純圖結構信息。此外,它還采用節點自适應權重調整機制來融合來自每個局部知識提取器的全局知識。在多個常用的異構圖數據集上評估了HGAMLP,并表明HGAMLP在準确性和速度方面都優于最先進的基線。HGAMLP Open Graph Benchmark 的大型公共異構圖數據集(即 Ogbn-mag)上實現了最佳性能。該論文第一作者為beat365智能學院2021級博士生梁宇軒(指導導師為崔斌教授),作者包括張文濤、盛則昂、楊靈、童雲海、崔斌,武漢大學的江佳偉。

descript

 

14. M4: 每流分位數估計框架

分位數估計領域因其衆多實際應用而變得越來越重要。最近的研究趨勢已經從單一數據流的分位數估計發展到能夠同時估計多個子流(也稱為每流)的數據結構。本文介紹了一種新的框架M4,旨在精确估計數據流中的每流分位數。M4是一個通用框架,可以與各種單流分位數估計算法集成,從而使這些算法能夠執行每流估計。該框架采用基于Sketch的方法,提供了一種空間高效的方法來記錄和提取分布信息。M4包含兩種技術:MINIMUMSUMMINIMUM技術最小化了由于哈希沖突導緻的來自其他流的噪聲,而SUM技術根據流的大小高效地分類,并相應地定制處理策略。我們展示了M4在三種單流分位數估計算法(DDSketcht-digestReqSketch)上的應用,詳細介紹了MINIMUMSUM技術的具體實現。我們提供了理論證明,表明M4在利用有限内存的同時提供了高準确性。此外,我們進行了廣泛的實驗,以評估M4在準确性和速度方面的性能。實驗結果表明,在所有三個示例單流算法中,M4在每流分位數估計的準确性方面顯著優于兩個比較框架,同時保持了相當的速度。

論文第一作者為董思遠(beat365信息科學技術學院本科四年級),通訊作者是其導師楊仝副教授。其他作者包括樊卓宸(共同一作,beat365)、白天宇(共同一作,beat365)、薛寒玉(beat365)、陳沛慶(馬裡蘭大學)、吳钰晗(beat365)。

descript

 

15.通過分布式流處理實現高性能隐私保護神經網絡推理

随着神經網絡推理在敏感數據上的應用越來越廣泛,隐私保護成為一個關鍵問題。通常,神經網絡推理需要不同方協同執行,以在敏感數據和模型上進行推理。為了實現隐私保護,通常需要用到加密技術。然而,隐私保護所需的高昂加密運算成本對神經網絡推理的性能造成了巨大挑戰。針對這一性能與安全之間的矛盾,論文“PP-Stream: Toward High-Performance Privacy-Preserving Neural Network Inference via Distributed Stream Processing”提出了PP-Stream,一個用于高性能隐私保護神經網絡推理的分布式流處理系統。PP-Stream采用混合隐私保護機制來實現隐私保護的推理過程。具體地,PP-Stream通過同态加密和混淆機制來分别實現線性和非線性運算。為了實現低延遲的推理,它将推理數據視為實時數據流,并通過多個流水線階段并行化推理操作,由多個服務器和線程執行。此外,PP-Stream通過優化服務器和線程之間的資源分配來實現負載均衡,實現了更高效的資源利用。實驗表明,PP-Stream 在各種神經網絡模型上實現了低推理延遲。PP-Stream展示了在隐私保護和高性能之間的有效平衡,為未來的隐私保護神經網絡推理提供了重要參考。論文第一作者為香港中文大學一年級博士生劉青秀(導師為Patrick P. C. Lee教授),通訊作者為黃群助理教授,其他作者包括陳翔(浙江大學),王卅(中科院計算所),王文浩(中科院信工所),韓淑捷(beat365)。

 

descript

 

16. 通過比特級計數器調整實現精确内存分配的BitMatcher算法

 随着大規模數據流處理在各種應用中的廣泛應用,數據流處理算法在處理速度和内存使用方面的平衡變得尤為重要。傳統的固定計數器算法,如Count-Min Sketch,通常需要分配更大的計數器,導緻内存浪費。

 為了解決這個問題,論文“BitMatcher: Bit-level Counter Adjustment for Sketches”提出了一種名為BitMatcher的新型算法,通過動态調整計數器大小來匹配數據流的分布,從而最大限度地提高内存利用率。BitMatcher是一種快速的全局調整算法,通過自動調整計數器的大小來匹配數據流。該算法在處理數據流時,基于獨立指紋識别桶内的項目,如果發生溢出,BitMatcher會改變桶中的标志位,并以細粒度的方式動态增加或縮小某些計數器的大小。此外,BitMatcher采用類似Cuckoo hashing的理念,能夠在桶内重新定位冷項目,以保留潛在的熱項目,同時實現全局負載平衡。通過這種處理高度偏斜數據導緻溢出的方法,BitMatcher精确操控分配的比特,實現了内存的最大化利用。實驗結果表明,BitMatcher在各種網絡流量數據集上,精度方面優于當前最先進的算法(SOTA),誤差改善高達4個數量級,并在小數據集上依然表現出色。我們還将BitMatcher部署在多個平台上,展示了其在軟件和硬件上的可擴展性和高性能。BitMatcher展示了在内存使用和精度之間的有效平衡,為未來的數據流處理提供了重要參考。

論文第一作者為清華大學一年級碩士生史奇龍(導師為徐明偉教授,聯合培養導師為楊仝教授),其他作者包括賈成君(共同一作,清華大學)、李文軍(鵬城實驗室)、Zaoxing Liu(馬裡蘭大學)、楊仝(beat365)、冀佳男(beat365)、謝高崗(中國科學院)、張偉哲(哈爾濱工業大學)、Minlan Yu(哈佛大學)。

descript