您現在的位置: 首頁 » 學院新聞 » 新聞動态 » 正文

學院新聞

新聞動态


國際計算機視覺與模式識别會議(CVPR2024即将于61721日在美國西雅圖召開,CVPR是計算機視覺乃至人工智能領域最具學術影響力的頂級會議之一,在Google Scholar指标榜單中位列全球學術出版物第4。本年度召開的CVPR 2024 共收到11532篇投稿,其中2719篇被接收,錄取率為23.6%,接收論文中324篇(11.9%)被選為Highlight90篇(3.3%)被選為Oral

據不完全統計,beat365官方网站在本年度CVPR會議中發表論文44篇,其中36篇來自視頻與視覺技術研究所,5篇來自前沿計算研究中心,數據科學與工程研究所、計算語言學研究所和元宇宙技術研究所各有1篇論文發表,研究方向涵蓋計算攝像、脈沖視覺、多模态大模型、三維視覺、具身智能、擴散模型等計算機視覺前沿方向。

以下是對部分論文的簡要介紹(按照研究所和作者名字首字母排序):

 

一、 事件相機引導的直接和間接光照分離

descript

場景物體反射光照中包含直接光照和間接光照兩部分,直接和間接光照的分離是計算機視覺中一個經典任務,可以提高形狀恢複和物體材質估計等下遊任務的準确度,例如光度立體視覺、結構光掃描等。當前直接和間接光照分離方法大多需要較長的數據拍攝時間,隻能應用于靜态場景,無法遷移到動态場景當中。現有單圖方法雖然數據拍攝時間短,但由于缺少物理約束其分離效果較差。為了解決該問題,CVPR 2024論文《EvDiG: Event-guided Direct and Global Components Separation》(Oral)提出事件引導的直接和間接光照分離方法EvDiG,從單張傳統RGB圖像和對應記錄陰影變化的事件信号實現直接和間接光照的分離。該方法利用事件相機高時間分辨率的特點,記錄快速投射陰影變化下場景亮度的連續變化信息,從而獲取場景光照物理約束,并以此實現場景直接和間接光照的分離。實驗結果表明,在僅有單張圖像和事件作為輸入下,EvDiG在直接和間接光照分離效果上接近多圖傳統方法。通過控制光源遮擋物的快速運動,可以極大地縮短數據拍攝所需要的時間,達到單圖RGB圖像所需拍攝時間的水平。EvDiG可遷移到動态場景當中,實現動态場景下的直接和間接光照分離。

該論文所有作者均來自于beat365,第一作者為周鑫渝,通訊作者為施柏鑫長聘副教授(beat365/beat365視頻與視覺技術研究所),合作作者包括段沛奇、李博宇、周矗和許超教授。

 

二、 基于事件相機的實時光度立體視覺

descript

光度立體視覺是一種通過分析從各個方向照射物體的圖像序列來估計物體表面法線的技術,其獨特之處在于重建結果的高分辨率和精确細節。在密集采樣光照和朗伯反射物體的條件下,光度立體視覺方法的優勢尤為突出。傳統的基于幀相機的光度立體視覺數據采集過程複雜且耗時,通常需要捕獲多曝光圖像來合成高動态範圍圖像,從而準确地捕獲物體表面的鏡面反射區域,嚴重阻礙了有實時性需求的應用。事件相機具有高時間分辨率、高動态範圍和低帶寬要求的特點,被認為是實時計算機視覺應用中一種有前景的數據采集方案。CVPR 2024論文《EventPS: Real-Time Photometric Stereo using an Event CameraOral利用事件相機的獨特屬性實現了實時的光度立體視覺。從事件相機觸發的基本模型出發,逐個事件推導出與表面法線直接相關的零化向量信息。在傳統算法與深度學習算法領域分别實現了基于事件相機的光度立體視覺算法。配合高速轉台進行數據采集和經過GPU優化的算法,實現了超過30幀每秒的實時表面法線重建。

該論文第一作者為于博涵(beat365),通訊作者為施柏鑫長聘副教授(beat365/beat365視頻與視覺技術研究所),合作作者包括任傑骥(上海交通大學)、韓金(東京大學)、梁錦秀(beat365)和王非石(beat365)。

 

三、 利用近場和遠距光源的三維場景逆渲染重建

descript

在當今的數字時代,随着電影制作、遊戲開發、VR/AR技術的飛速發展,對于在虛拟世界場景中繪制具有真實感和多樣性的虛拟三維物體的需求日益增長。通過使用多視角二維RGB圖像作為輸入,三維重建技術能夠花費較少的時間和精力地創造三維物體,從而成為解決該需求的一大途徑。逆渲染三維重建方法能夠在重建過程中将環境光照與物體材質屬性分離,在任意光照條件下進行重建物體的準确渲染,相比一般三維重建方法更适用于産業中的多種應用場景。現有的逆渲染三維重建技術已經嘗試采用多種光照下的觀測對場景的光照與材質進行解耦,但是大多隻能支持遠距光源下的觀測,無法對可控的近場光源(如閃光燈)進行更有效的利用以得到更加精細而準确的物體材質。為了解決該問題,CVPR 2024論文《VMINer: Versatile Multi-view Inverse Rendering with Near- and Far-field Light Sources》(Highlight)提出利用近場和遠距光源的三維場景逆渲染重建方法,可以利用輸入圖像中包含的所有遠距和近場光照條件,進行光照和材質間的消歧,因此能夠更加有效地利用可控的光源(如與相機并置的閃光燈或固定位置的台燈)和不同的遠距環境光照條件,得到更加精細而準确的物體材質重建。實驗表明,該方法可以有效利用各類光源下的觀測,其重建結果的準确度與速度均超過了現有的最先進方法。

該論文第一作者為費凡(beat365),通訊作者為施柏鑫長聘副教授(beat365/beat365視頻與視覺技術研究所),合作作者包括湯佳駿(beat365)和譚平教授(香港科技大學)。

 

四、 面向去模糊和插幀任務的低光下事件相機延遲校正    

descript

在低光場景下,基于事件相機的去模糊和插幀算法在建模中均需要假設理想的事件觸發模型,即事件檢測時間與實際變化發生時間一緻。在低光場景下,真實事件模型與理想事件模型存在較大的偏差,導緻去模糊和插幀算法的建模不夠準确,極大影響了這些算法的性能。目前尚不存在事件相機的延遲矯正算法,因此低光下基于事件相機的去模糊和插幀算法的退化問題未能被充分考慮。針對上述問題,CVPR 2024論文《Latency Correction for Event-guided Deblurring and Frame Interpolation》提出了基于事件的時序置信度指标,用于評估去模糊後圖像的清晰程度,判斷去模糊算法的效果;該論文還提出了一個基于延遲與強度值的曲線,建模了延遲與模糊圖像強度值的關系;基于時序置信度指标、事件積分的可導表達及上述曲線,該論文實現了數據驅動的事件延遲矯正。實驗結果表明,該論文提出的方法能夠校正事件相機的延遲,在一定程度上解決低光下基于事件相機的去模糊和插幀算法的退化問題。

該論文第一作者為楊溢鑫(beat365),通訊作者為施柏鑫長聘副教授(beat365/beat365視頻與視覺技術研究所),合作作者包括梁錦秀(beat365)、于博涵(beat365)、陳岩(商湯科技)和任思捷(商湯科技)。

 

五、 基于滾動混合比特脈沖的高幀率高動态視頻

descript

脈沖相機是受靈長類動物視覺系統啟發而發明的新型高速成像設備,其能夠對到達像素點的光子不斷積分,當光子累積的能量達到既定阈值後,該像素點發放一個單比特脈沖。對累積的光子能量進行單比特量化,相較于多比特量化,能夠有效降低數據傳輸壓力、有力保障脈沖信号的高速讀出。但單比特脈沖所能表征的環境光動态範圍受到了一定制約,這是因為對高動态範圍(High Dynamic Range, HDR)的精細化記錄依賴于高位的多比特數據。對于存在高速運動的高動态範圍場景,是否可以實現既要高幀率(High Frame Rate, HFR)使之看得快,又要高比特位使之看得清的脈沖成像?CVPR 2024論文《Towards HFR and HDR Video from Rolling-Mixed-Bit Spikings》提出了一種采用滾動混合比特方式讀出脈沖信号的相機工作模式,該模式通過在單比特脈沖信号中循環滾動讀出多比特脈沖,從而保留了少部分稀疏的多比特脈沖信息。之後,通過對單比特高速脈沖進行光流估計,實現對稀疏的多比特脈沖信号進行上采樣插值,獲得與單比特脈沖信号同等稠密程度的多比特脈沖信号。最後,通過将多比特信号與單比特信号進行時空維度的融合,重構得到每秒2000幀的高動态範圍視頻。實驗表明,該論文提出的方法能夠在隻增加約2%數據冗餘的條件下,達到媲美于完全三比特脈沖的高動态重構視頻效果。同時對比傳統基于幀的商業相機,該論文提出的方法在連續記錄高速運動場景方面存在潛在優勢。

該論文的共同第一作者為常亞坤副教授(北京交通大學;原beat365博雅博士後),葉力多斯·肖開提(beat365),通訊作者為施柏鑫長聘副教授(beat365/beat365視頻與視覺技術研究所),合作作者包括劉俣伽博士(beat365)、樊斌博士(beat365)、黃兆鋆(beat365)和黃鐵軍教授(beat365)。

 

六、 語言引導的圖像反射分離

descript

玻璃反射的存在會顯著降低捕獲圖像的圖像質量,并幹擾下遊的計算機視覺任務,如人臉識别或深度估計。圖像反射分離方法可以将帶反射幹擾的混合圖像分解為位于玻璃不同側面的場景,即反射層和背景層。當前方法主要是采用專門的拍攝裝置來獲取多張信息互補的場景圖像從而分離反射,或者是利用從統計特性中得到的人工先驗來學習反射的知識。這兩類方法要麼由于數據拍攝的高要求限制了應用範圍,要麼是缺乏足夠的關于發射層和背景層的輔助信息導緻魯棒性不夠。為了解決這個問題,CVPR 2024論文《Language-guided Image Reflection Separation》首次提出了使用語言引導圖像反射分離,利用靈活的自然語言來指定混合圖像中一層或兩層的内容,減緩了反射分離問題的不适定性,保證了對實時捕獲或在線下載的混合圖像的泛化性。該方法使用自适應全局交互模塊來保持整體語言和圖像内容的一緻性,并利用專門設計的損失函數來約束語言描述與不同圖像層之間的對應關系,通過提出一種語言門機制和随機化訓練策略來解決可識别層模糊問題。在手動标注了語言描述後的真實反射分離數據集上進行實驗,該方法在多個數據集上的表現超過了現有的最先進方法。

該論文所有作者均來自于beat365,共同第一作者為鐘灏峰和洪雨辰,通訊作者為施柏鑫長聘副教授(beat365/beat365視頻與視覺技術研究所),合作作者包括翁書晨和梁錦秀博士。

 

七、 窄帶圖像引導的大氣擾動消除

descript

在遠距離成像中,大氣擾動的消除對于提升成像質量至關重要。由于圖像内容和複雜的擾動場難以精确區分,現有基于單圖輸入的擾動消除方法在處理複雜擾動場景時遇到瓶頸。為解決這一問題,一些方法提出利用大氣擾動的時變物理屬性,基于多圖輸入進行擾動的消除。盡管此類方法通常在細節恢複能力和魯棒性上表現較好,但其需要拍攝圖像序列來獲得足夠的大氣擾動消除約束,在實際應用中可能會帶來不便。為解決真實場景中的大氣擾動消除問題,CVPR 2024論文《NB-GTR: Narrow-Band Guided Turbulence Removal》提出了一種新的湍流去除網絡。作者發現窄帶圖像的通帶上累積擾動效應減少,可以為擾動消除過程帶來強有力的約束,為此提出在傳統的RGB圖像下引入了額外的窄帶圖像的引導,僅需一對圖像即可顯著抑制大氣擾動,從而增強了捕獲場景的清晰度和真實性。該方法采用兩步融合策略,首先利用再擾動模塊有效地從一對RGB和窄帶圖像中聯合提取擾動場信息,再據此有效引導擾動消除網絡。利用窄帶成像的優勢,圖像平面的湍流得到顯著降低,從而能在不損失色彩信息的同時減少高頻細節的丢失。實驗結果表明,該方法在保持單圖擾動消除方法的便利性的同時,能夠産生更真實的結果。

該論文所有作者均來自于beat365,第一作者為夏一飛,通訊作者為施柏鑫長聘副教授(beat365/beat365視頻與視覺技術研究所),合作作者包括周矗、朱成軒和許超教授。

 

八、 傳統圖像和事件信号互補的魯棒手勢識别

descript

手勢姿态估計是一個經典的計算機視覺問題,在人機交互、虛拟現實和機器人領域中有重要應用,一個實用的手勢姿态估計算法需要做到魯棒性和泛化性強、延遲和功耗低。當前的手勢姿态估計方法主要是基于RGB或者RGB-D相機,RGB相機的成像具備豐富的顔色和紋理信息,但是面臨着信息冗餘、成像延遲,在挑戰性場景下圖像質量的退化(過曝或者運動模糊)等問題。而事件相機的異步成像機制使其具備高動态範圍、低延遲,低數據冗餘度等特征,但同時也存在數據稀疏紋理缺失的問題。針對這些問題,CVPR 2024論文《Complementing Event Streams and RGB Frames for Hand Mesh Reconstruction》提出利用事件相機和RGB相機成像的互補性,融合兩種模态數據進行手勢姿态估計。數據方面,本工作根據兩種相機的成像特性,提出了一種成像退化的數據增廣方式,使得訓練時隻需要正常場景的數據,就可以泛化到挑戰性場景上;模型方面,本工作精心設計空間對齊、互補融合、以及時序注意力模塊,将兩種模态對齊。實驗結果表明,該方法效果優于基于單個傳感器的方法,隻需要常規場景的訓練數據,就可以泛化到各種挑戰性場景。

該論文共同第一作者為蔣建平(beat365)和周鑫渝(beat365),共同通訊作者為施柏鑫長聘副教授(beat365/beat365視頻與視覺技術研究所)和鄧小明研究員(中科院軟件所),合作作者包括王炳宣(beat365)、和許超教授(beat365)。

 

九、 基于神經輻射場的水下場景表征方法

descript

神經輻射場可以從多視角的二維圖片信息中學習并生成三維的場景表征模型。對于多數常見的場景,神經輻射場均被證明是有效的。然而,水下場景中包含的諸多動态成分,包括水對光的吸收與散射性質、局部光照的變化以及場景中運動的物體,為其表征帶來了獨特的挑戰。現有的基于神經輻射場的場景表征方法并未充分考慮上述動态成分,導緻水下場景三維重建質量較低。為了解決上述問題,CVPR 2024論文《Neural Underwater Scene Representation》提出在傳統的神經輻射場框架上進行擴展,對水下場景中水體性質、不穩定的光照條件和運動的物體分别建模,實現高質量水下場景的表征。該方法采用了混合漸進的采樣方法與兩階段的網絡訓練策略,實現了對網絡中各項參數的魯棒優化。實驗結果表明,該方法在不顯著延長訓練與渲染時間的基礎上,對水下場景表征的精确度超過了現有的最先進方法。該方法也可以應用到場景編輯的各項任務中,為水下圖像恢複和水體遷移任務提供便利。

該論文共同第一作者為湯雲開(beat365)和朱成軒(beat365),共同通訊作者為施柏鑫長聘副教授(beat365官方网站/視頻與視覺技術研究所)和萬人傑助理教授(香港浸會大學),合作作者包括許超教授(beat365)。

 

十、 粗糙度和透明度可度量的光度立體實拍評測數據集

descript

實拍數據集對于評測光度立體視覺算法的在真實世界中的性能表現、探知光度立體的研究前沿有着重要意義。現有的實拍光度立體數據集對于表面反射的控制及評測基于語義描述,例如塑料陶瓷等,無法給出光度立體在定量化表面反射方面的性能評估。同時,由于語義描述難以度量,光度立體視覺算法的評測結果無法推廣到實拍數據集中未包含的材質反射。因此,現有數據集及其評測結果難以在實際應用場景中為不同反射物體提供光度立體算法選擇的參考。針對這一問題,CVPR 2024論文《DiLiGenRT: A Photometric Stereo Dataset with Quantified Roughness and Translucency》提出了可度量粗糙度和透明度的光度立體實拍數據集。受圖形學領域參數化表面反射模型的啟發,本工作基于可量化的材質反射參數(粗糙度,透明度)來構建數據集。通過使用6種不同濃度的溶液在9個不同粗糙度的球狀模具中固化,構建了6x9個透明度和粗糙度可控的半球數據集。基于該數據集進行光度立體算法評測不僅定量化回答了算法在材質反射方面的工作區間,還可以通過粗糙度和透明度數值差值的方式推測現有光度立體算法在未包含材質反射下的性能表現。

該論文的共同第一作者為郭亨特聘研究員(北京郵電大學)、任傑骥博士(上海交通大學)、王非石(beat365),共同通訊作者為施柏鑫長聘副教授(beat365/beat365視頻與視覺技術研究所)和任明俊教授(上海交通大學),合作作者包括Yasuyuki Matsushita教授(大阪大學)。

 

十一、     實時人像視頻三維感知重光照

descript

人像視頻重光照是計算機圖形學和計算機視覺領域中極具應用價值的研究方向。這項技術需要精确建模光線、人臉幾何和材質之間的複雜交互作用,并确保合成視頻的時間連貫性。為了提供更大的編輯自由度,并在增強現實和虛拟現實等領域得到廣泛應用(例如創建能夠根據環境調整光照的三維面部模型),需要對人像視頻進行三維感知的重光照,也就是将二維人臉信息提升到三維可重光照的表示形式,以便在不同的觀察角度和光線條件下重新渲染人像視頻。實時處理的需求進一步增加了這一挑戰的難度。針對這一難題,CVPR 2024論文《Real-time 3D-aware Portrait Video Relighting》(Highlight)首次提出了一種通過神經輻射場實現人像視頻實時三維感知重光照的方法。該方法能夠在新視角和新光照條件下實時合成逼真的三維人像,在消費級硬件上實現32.98 FPS的處理速度,并在重建質量、光照誤差、光照穩定性、時間一緻性和推理速度等方面達到了當前最先進的水平。

該論文第一作者為蔡子祺(北京交通大學;9月份beat365直博入學),通訊作者為高林研究員(中科院計算所),合作作者包括蔣楷文(加州大學聖地亞哥分校)、陳姝宇(中科院計算所)、來煜坤(卡迪夫大學)、傅紅波(香港城市大學)以及施柏鑫長聘副教授(beat365官方网站/視頻與視覺技術研究所)。

 

十二、     基于稀疏偏振圖像的鏡面反射物體三維重建方法

descript

鏡面反射物體的三維重建極具挑戰性,這是由于物體表面同一點被觀測到的結果随視角變化而變化,違反了傳統多視角立體技術中的一緻性原則。現有方法通過分别估計物體本身顔色和環境光來幫助恢複三維物體結構,通常需要大量的不同視角觀測圖像作為輸入。如果減少輸入圖像視角,往往會造成重建結果質量下降或無法重建等問題,而現有的稀疏圖像三維重建技術多适用于非鏡面反射物體。為了解決稀疏視角下的鏡面反射物體重建問題,CVPR 2024論文《NeRSP: Neural 3D Reconstruction for Reflective Objects with Sparse Polarized Images》提出了利用偏振圖像所提供的光照和幾何信息共同約束隐式輻射場表達的法向量,從而能夠在稀疏輸入視角下高效充分利用圖像信息。定性和定量實驗表明,該方法在六個輸入視角下,相較于現有技術能夠獲得更加準确的重建效果。此外,該論文提供了第一個包含掃描結果的用于偏振圖像三維重建的真實數據集,為未來的研究工作提供了定量分析資源。

該論文共同第一作者為韓雨霏(北京郵電大學)、郭亨特聘研究員(北京郵電大學)、Koki Fukai(大阪大學),通訊作者為郭亨特聘研究員(北京郵電大學),合作作者包括Hiroaki Santo助理教授(大阪大學)、施柏鑫長聘副教授(beat365/beat365視頻與視覺技術研究所Fumio Okura副教授(大阪大學)、馬占宇教授(北京郵電大學)和賈雲鵬教授(北京郵電大學)。

 

十三、     基于旋轉光源和自然光條件下的非标定光度立體視覺

descript

自然光條件下的非标定光度立體視覺克服了傳統非标定光度立體視覺以暗室為拍攝環境、以簡單光源為光照要求的固有缺點。然而,現有的方法受限于光源和物體之間複雜的相互作用和自然光的多樣性,往往隻能在特定材質或者滿足特定限制的光源下重建物體三維表面。為了解決這個問題,CVPR 2024論文《Spin-UP: Spin Light for Natural Light Uncalibrated Photometric Stereo》提出了基于旋轉光源的實驗設置和非監督學習的方法。該方法從旋轉光源下拍攝得到的圖片以及物體的輪廓信息中發掘有關光源的先驗,以可微渲染為主要技術手段,配合所提出的優化策略,可以同時還原出物體的三維表面、各向同性的反射率函數以及環境光源。實驗表明,該方法在本文提出的合成和真實數據集上重建出了更高精度的三維表面,效果優于目前所有其他監督或無監督的方法,并且可以适配更一般的自然光和物體。

該論文共同第一作者為李宗瑞(南洋理工大學)和陸展(南洋理工大學),通訊作者為鄭乾研究員(浙江大學),合作作者包括闫浩傑(浙江大學),施柏鑫長聘副教授(視頻與視覺技術研究所)、潘綱教授(浙江大學)和蔣旭東副教授(南洋理工大學)。

十四、     從處理脈沖波動性的角度提升脈沖相機圖像重建

descript

作為一種超高速的仿生視覺傳感器,脈沖相機在對高速場景的記錄中展現出了巨大的潛力。不同于傳統幀式相機,脈沖相機的每個像素通過對光子進行連續累積并發放脈沖來實現對光學場景的記錄。在這一過程中,有多種效應會對脈沖相機的成像過程産生影響,包括光子到達的泊松效應、電路的熱噪聲以及脈沖讀出的量化效應。以上因素引入了脈沖的波動性,即使光強是穩定的,脈沖之間的時間間隔也會随時間發生變化,無法準确反映光照強度。CVPR 2024論文《Boosting Spike Camera Image Reconstruction from a Perspective of Dealing with Spike Fluctuations》提出了一種考慮脈沖波動性的脈沖相機圖像重建方法。本文首先揭示了脈沖發放的時間差分(DSFT)倒數的無偏估計屬性,并基于此提出了一個基于多階DSFT的表征模塊用于抑制脈沖的波動性。此外,本文還提出了一個多粒度的特征對齊模塊,用于進一步抑制脈沖波動性帶來的影響,其中粗粒度的對齊基于具有局部搜索策略的塊級交叉注意力進行設計,精細粒度的對齊基于像素級的可變形卷積進行設計。實驗結果證明,本文所提出的方法在合成數據與真實數據上都具有優良的性能。

該論文第一作者為趙睿(beat365),通訊作者為熊瑞勤研究員(beat365/beat365視頻與視覺技術研究所)。合作者包括趙菁、張健助理教授、餘肇飛助理教授、黃鐵軍教授(以上作者均為beat365),以及範曉鵬教授(哈爾濱工業大學)。

 

十五、     面向拜耳模式脈沖流的超分辨率重建

descript

脈沖相機是一種神經形态視覺傳感器,能夠以極高的時間分辨率連續産生表示光子到達的二進制的脈沖流,從而實現對高速度場景的捕捉。目前,為了實現對彩色高速場景的記錄,可以通過配備拜耳模式顔色濾光陣列構建彩色脈沖相機。盡管脈沖相機已展現出在高速成像方面的巨大潛力,但與傳統數碼相機相比,其空間分辨率十分有限。為此,CVPR 2024論文《Super-Resolution Reconstruction from Bayer-Pattern Spike Streams》提出了一種用于從低分辨率拜耳模式脈沖流中重建得到高分辨彩色圖像的彩色脈沖相機超分辨率網絡。具體來說,本文首先提出了一種面向拜耳模式脈沖流的表征方法,通過結合局部時間信息與全局感知信息來表示該二進制數據。然後,利用顔色濾光陣列的顔色分布與亞像素級的運動信息來尋找每個顔色通道的時域可用像素。為此,本文開發了一個基于殘差的特征細化模塊以減少運動估計誤差的影響。考慮到色彩相關性,聯合利用顔色通道的多階段時空像素特征來重建高分辨率的彩色圖像。實驗結果表明,所提出的方案能夠從低分辨率的拜耳模式脈沖流中重建出具有高時間和空間分辨率的彩色圖像。

該論文第一作者為董彥辰(beat365),通訊作者為熊瑞勤研究員(beat365/beat365視頻與視覺技術研究所)。合作者包括張健助理教授、餘肇飛助理教授、黃鐵軍教授(以上作者均為beat365)、朱樹元(電子科技大學)和範曉鵬教授(哈爾濱工業大學)。

 

十六、     語義頻域提示的知識蒸餾

descript

Knowledge distillation (KD)已成功應用于各種任務,主流方法通常通過空間模仿來提升學生模型。然而,在教師模型的空間域中引起的連續下采樣是一種圖像損壞,阻礙學生模型分析需要模仿的具體信息,導緻準确性下降。為了更好理解受損特征圖,CVPR 2024論文《FreeKD: Knowledge Distillation via Semantic Frequency Prompt》提出将注意力轉移到頻域。在頻域蒸餾中,面臨着新的挑戰:低頻帶傳達較少的信息量,高頻帶更具信息性但仍有噪聲,不是每個像素對蒸餾的貢獻相等。為了解決上述問題提出将Frequency Prompt插入到教師模型,在微調過程中學習語義信息;在蒸餾期間,通過Frequency Prompt生成像素級的頻率掩碼,以定位各個頻率帶内的感興趣像素(PoIs)。此外,針對密集預測任務采用位置感知關系損失,為學生模型提供高階空間增強。此知識蒸餾方法被命名為FreeKD,它确定了頻率蒸餾的程度與位置。FreeKD不僅在密集預測任務上始終優于基于空間的蒸餾方法(例如,FreeKD使RepPoints-R50COCO2017上獲得了3.8AP增益,PSPNet-R18Cityscapes上獲得了4.55mIoU增益),而且使學生模型更具魯棒性。值得注意的是,本文還首次驗證了在大規模視覺模型(例如,DINOSAM)上的泛化能力。

該論文第一作者為張袁(beat365),通訊作者為仉尚航助理教授(beat365/beat365視頻與視覺技術研究所),合作作者包括黃濤(悉尼大學)、劉家銘(beat365)、蔣焘(浙江大學)和程寬助理教授(beat365)。

 

十七、     面向多模态大模型的端-雲協同優化策略

descript

在如今的數字化時代,随着雲計算和邊緣設備技術的迅猛發展,如何在資源受限的設備上高效部署多模态大模型成為了一個亟待解決的難題。針對這一問題,CVPR 2024論文《Cloud-Device Collaborative Learning for Multimodal Large Language Models》提出了一種創新的雲-設備協同持續适應框架(CD-CCA),該框架旨在利用雲端大規模多模态大模型(MLLM)的強大能力,提升壓縮後設備端模型的性能,從而應對動态變化的環境。在設備到雲的上行鍊路中,采用了一種不确定性引導的Token采樣策略(UTS),通過過濾分布外的Token來降低傳輸成本并提高訓練效率。在雲端,本文提出了一種基于适配器的知識蒸餾方法(AKD),将大規模MLLM的精煉知識轉移到壓縮後的設備端模型中。此外,本文還引入了一種動态權重更新壓縮策略(DWC),對更新後的權重參數進行自适應選擇和量化,從而提高傳輸效率并減少雲端和設備端模型之間的表征差距。實驗結果表明,所提出的框架在多個多模态基準測試上優于現有的方法,尤其是在視覺問答和圖像标注任務中表現突出。此外,通過真機實驗驗證了該方法的可行性和實用性。該框架為設備端MLLM在動态環境中的持續适應提供了新的思路,展示了雲-設備協同學習的巨大潛力。

該論文共同第一作者為王冠群(beat365)、劉家銘(beat365)和李忱軒(beat365),通訊作者為仉尚航助理教授(beat365/beat365視頻與視覺技術研究所),合作作者包括張袁(beat365)、麻俊鵬(中南大學)、魏心宇(beat365)、張雨澤(beat365)、莊棨甯(beat365)、張仁瑞(上海人工智能實驗室)和劉一茳(南京大學)。

 

十八、     面向持續性測試泛化的自适應掩碼自編碼器

descript

CVPR 2024論文Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation提出了一種面向持續性泛化學習的分布感知掩碼自編碼器。具體來說,持續性測試泛化(CTTA)旨在将預訓練模型遷移到不斷變化的目标分布中,以應對真實世界的動态變化。現有的CTTA方法主要依賴于熵最小化或教師-學生僞标簽方案,在未标記的目标域中進行知識提取。然而,動态數據分布會導緻預測結果校準錯誤和僞标簽噪聲,這在現有的自監督學習方法中阻礙了有效緩解錯誤積累和災難性遺忘問題。為了解決這些挑戰,本文提出了一種全新的持續性自監督方法,即自适應分布掩碼自動編碼器(ADMA),該方法在增強目标域知識提取的同時,減輕了分布偏移的錯誤積累。具體來說,提出了一種分布感知掩碼(DaM)機制,以自适應地選擇掩碼位置,然後在掩碼目标樣本和原始目标樣本之間建立一緻性約束。此外,對于掩碼的特征,利用高效的解碼器來重建手工制作的特征描述符(例如方向梯度直方圖),利用其域不變性來增強任務相關的表達。通過在四個廣泛認可的基準上進行大量實驗,所提出的方法在分類和分割CTTA任務中均達到了最先進的性能。

該論文第一作者為劉家銘(beat365),通訊作者為仉尚航助理教授(beat365/beat365視頻與視覺技術研究所),合作作者包徐冉(beat365實習生)、楊森喬(beat365實習生)、張仁瑞(港中文)、張啟哲(beat365)、陳澤徽(中科大)和郭彥東(智平方科技)。

 

十九、     基于梯度的參數選擇方法用于高效微調

descript

随着預訓練模型規模的增長,對于多種下遊任務進行完全微調并存儲所有參數是昂貴且不可行的。為此,CVPR 2024論文《Gradient-based Parameter Selection for Efficient Fine-Tuning》提出了一種全新的參數高效微調方法,基于梯度的參數選擇(GPS),表明了在僅微調預訓練模型中少量選擇的參數同時保持模型其餘部分凍結的情況,可以産生與完全模型微調方法相似或更好的性能。與現有流行的和最先進的參數高效微調方法不同,所提出方法在訓練和推理階段都不引入任何額外的參數和計算成本。另一個優點是模型無關和非破壞性的特性,消除了對于特定模型的任何其他設計的需求。與完全微調相比,GPS24個圖像分類任務中平均僅微調了預訓練模型的0.36%參數,在FGVC任務中準确率提高了3.33%91.78% vs. 88.45%),在VTAB任務中提高了9.61%73.1% vs. 65.57%)。此外,它還在醫學圖像分割任務中分别取得了17%16.8%mDicemIoU的顯著改善。最後,GPS在與現有參數高效微調方法相比,性能達到了最先進的水平。

該論文第一作者為張智(阿姆斯特丹大學/beat365)和張啟哲(beat365),通訊作者為仉尚航助理教授(beat365/beat365視頻與視覺技術研究所),合作作者包括高子俊(山東大學)、張仁瑞(港中文)、Ekaterina Shutova (阿姆斯特丹大學)和周仕佶(清華大學)。

 

二十、     基于分割一切模型的目标物體三維重建 

descript

多視角圖像的神經三維重建最近引起了越來越多的關注,現有方法通常學習整個場景的神經場,而如何重建用戶指定的目标對象仍然是一個未充分探索的問題。考慮到分割一切模型(SAM)在分割任何二維圖像方面顯示出的有效性,CVPR 2024論文《NTO3D: Neural Target Object 3D Reconstruction with Segment Anything》提出了一種新穎的高質量神經目标對象三維重建方法NTO3D,該方法利用了神經場和分割一切模型的優勢。該方法首先提出一種新策略,将分割一切模型的多視角二維分割掩模提升到一個統一的三維占用場。然後,三維占用場被投影到二維空間并生成分割一切模型的新提示。這一過程是疊代的,直到收斂,以将目标對象從場景中分離出來。之後,将分割一切模型編碼器的二維特征提升到三維特征場中,以提高目标對象的重建質量。NTO3D将分割一切模型的二維掩模和特征提升到三維神經場,用于高質量的神經目标對象三維重建。本文在幾個基準數據DTULLFFBlendedMVS上進行了詳細的實驗,以展示所提出方法的優勢。

該論文第一作者為韋小寶(beat365),通訊作者為仉尚航助理教授(beat365/beat365視頻與視覺技術研究所),合作作者包括張仁瑞(上海人工智能實驗室)、吳家銳(上海人工智能實驗室)、劉家銘(beat365)、陸鳴(英特爾中國研究院)和郭彥東(智平方科技)。

 

二十一、          基于自适應思維鍊的文生圖模型提示詞分布對齊

descript

基于擴散的生成模型在生成高保真視覺内容(如圖像和視頻)方面表現出色。然而, 它們的性能在很大程度上依賴于文本輸入的質量,通常稱為提示詞。傳統的提示詞設 計過程雖然有效,但需要經驗豐富的專業知識,對于沒有經驗的用戶來說具有挑戰性。CVPR 2024論文《PromptCoT: Align Prompt Distribution via Adapted Chain-of-Thought》提出 PromptCoT,一種自動優化用戶提示詞的創新增強器。PromptCoT 基于這樣一個觀察結果設計:與訓練集中高質量圖像的文本信息相似的提示詞往往會帶來更好的生成效果。因此,本文使用一個僅包含高質量視覺内容描述的精心挑選的文本數據集對預訓練的大型語言模型(LLM)進行微調。通過這種方式,LLM 可以捕捉到高質量訓練文本的分布,從而生成對齊的續寫和修訂,以提升原始文本。然而,預訓練的 LLM 有一個缺點,即它們往往會生成無關或多餘的信息,因此采用鍊式思維Chain-of-Thought, CoT)機制來改進原始提示詞與其優化版本之間的一緻性。CoT 可以從對齊的續寫和修訂中提取并整合關鍵信息,基于上下文線索進行合理推斷,從而生成更全面和細緻的最終輸出。考慮到計算效率,沒有為每個單獨的模型或數據集分配一個專門用于提示詞增強的 LLM,而是集成了适配器,以利用共享的預訓練 LLM 作為基礎進行數據集特定的适應。通過獨立微調這些适配器,可以将 PromptCoT 适應新的數據集,同時最小化訓練成本和内存使用。本文中評估了 PromptCoT 在廣泛使用的潛在擴散模型上生成圖像和視頻的表現,結果顯示關鍵性能指标顯著改善。

該論文的共同第一作者是姚駿奕(beat365)和劉一茳(南京大學),共同通訊作者為周大權(字節跳動)和仉尚航助理教授(beat365/視頻與視覺技術研究所),合作作者包括董鎮(伯克利加州分校)、郭明非(斯坦福大學)、胡鶴藍(beat365)、Kurt Keutzer(伯克利加州分校)和杜力(南京大學)。

 

二十二、          基于弱監督情緒轉換學習的多樣化3D協同語音手勢生成

descript

生成生動且富有情感的3D協同語音手勢對于人機交互應用中的虛拟頭像動畫至關重要。雖然現有的方法能夠生成遵循單個情感标簽的手勢,但它們忽略了具有情感轉換的長手勢序列建模在真實場景中更實用。此外,缺乏具有情感轉變語音和相應3D人類手勢的大規模可用數據集也限制了該任務的解決。為了實現這一目标,CVPR 2024論文《Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation》首先結合 ChatGPT-4和音頻修複方法來構建高保真情感轉換人類語音。考慮到獲得與動态補全的情緒轉換音頻相對應的真實3D姿勢注釋極其困難,本文提出了一種新穎的弱監督訓練策略來鼓勵權威手勢轉換。 具體來說,為了增強過渡手勢相對于不同情感手勢的協調,本文将兩個不同情感手勢序列之間的時間關聯表示建模為風格指導,并将其注入到過渡生成中。本文進一步設計了一種情感混合機制,該機制基于可學習的混合情感标簽為過渡手勢提供弱監督。最後,本文提出了一個關鍵幀采樣器,可以在長序列中提供有效的初始姿勢提示,使得能夠生成不同的手勢。大量的實驗表明,所提出方法優于通過在本文新定義的情緒轉換任務和數據集上微調單一情緒對比方法而構建的最先進模型。

該論文第一作者為祁星群(香港科技大學),通訊作者為郭毅可教授(香港科技大學)和柳崎峰教授(香港科技大學)。合作者包括仉尚航助理教授(beat365/beat365視頻與視覺技術研究所)以及潘佳豪、李鵬、袁瑞斌、池曉威、李孟非、羅文寒副教授和雪巍助理教授(以上作者均來自香港科技大學)。

 

二十三、          多模态大語言模型指代感知指令微調方法

descript

多模态大語言模型是一類以大語言模型為基礎集成多種信息模态處理能力的人工智能模型,與傳統的多模态模型相比,其利用大語言模型的強大推理能力,在各類視覺任務和多模态理解任務中表現出強大的潛力。 現有的多模态大語言模型一般專注于圖像級别的内容理解,無法對圖像中的特定目标進行細粒度分析,并且模型構建過程中需要大量的指令微調數據和訓練資源,嚴重限制了其在各類視覺任務和多模态任務中的應用。為了解決這個問題,CVPR 2024論文《Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs》提出了多模态大語言模型指代感知指令微調方法。該方法首先利用現有數據集的标注通過人工設計多樣化的指代感知基礎任務實現了指令微調數據集構建。為了進一步提升數據的多樣性,方法提出了自洽自舉的數據生成流程,該流程可以将任意密集目标标注數據集轉化為坐标框-描述多模态數據。論文使用适配器同時對視覺編碼器和大語言模型進行微調,進一步增加了視覺編碼器的細粒度圖像理解能力。實驗結果表明,該工作使用更少的微調參數量和指令微調數據量,在常規多模态理解任務、視覺定位等指代感知任務和多個多模态大語言模型的評測基準上取得了最好的性能,例如,該工作在常規多模态理解任務GQA上超過使用50M數據的Qwen-VL方法5.2%。在視覺定位等指代感知任務上,在評測基準MMBench上,該工作超過第二名mPlug-Owl 5.6%

該論文第一作者為軒詩宇(beat365),通訊作者為張史梁長聘副教授(beat365/beat365視頻與視覺技術研究所,合作作者包括郭清沛(螞蟻集團)和楊銘博士(螞蟻集團)。

 

二十四、          基于多模态定位大模型的可泛化人體關鍵點定位方法

descript

已有人體關鍵點定位方法從訓練數據中學習人體結構先驗,進而用于推理未知人體圖像輸入。這種學習範式的泛化能力受到訓練數據的限制,即有限的數據集難以提供通用的人體結構先驗,這使得現有方法難以泛化到估計未知數據集人體姿态以及檢測新類型的人體結構。為了緩解這一限制并提高人體形态感知方法的泛化能力,CVPR 2024論文《LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model(Highlight)從另一角度形式化人體姿态感知問題,通過推理人體骨架關鍵點的文本描述來定位其位置。基于這一思路,提出了首個基于多模态大語言模型的人體姿态感知方法——多模态定位大模型LocLLM。定位大模型将人體關鍵點定位任務形式化為一個問答任務,通過輸入圖像、對應的關鍵點描述以及問題來回答對應的關鍵點坐标。實驗結果表明,本工作在多個人體姿态感知數據集上取得了優異的性能。LocLLM在标準的二維與三維人體姿态估計數據集上取得了77.6%準确率與46.6mm定位誤差,超越了傳統純視覺感知方法。在跨數據集泛化測試實驗中,LocLLMHuman-Art數據集上取得了64.8%的性能,領先之前最佳方法ViTPose11.0%的準确率。在新類型關鍵點檢測實驗中,LocLLM也領先基線方法24.1%的準确率,展現出優異的泛化能力。

該論文第一作者為王東凱(beat365),通訊作者為張史梁長聘副教授(beat365/beat365視頻與視覺技術研究所,合作作者包括軒詩宇(beat365)。

 

二十五、          基于空間感知回歸的人體關鍵點定位方法

descript

針對現有人體關鍵點定位模型存在準确率低下、計算存儲高與量化誤差的問題,CVPR 2024論文《Spatial-Aware Regression for Keypoint Localization(Highlight)提出了一個高效的空間感知回歸模型,用來準确定位人體關鍵點。空間感知回歸模型的核心是将輸入圖像中的空間位置信息引入到回歸過程中,降低直接回歸的難度。引入的空間位置先驗也能輔助模型感知不同實例的相同關鍵點,擴大了回歸模型的适用範圍。所提出的模型具有高性能、高效率的優點,在多個人體姿态估計任務,如二維/三維人體姿态估計、全身姿态估計以及多人姿态估計任務中均展現出領先的性能。例如在人體姿态估計數據集 COCO Keypoint 上,本文所提出的關鍵點定位模型在維持原有回歸模型計算量的情況下提升了17.5%的定位準确率,取得了準确率與效率的平衡。

該論文第一作者為王東凱(beat365),通訊作者為張史梁長聘副教授(beat365/beat365視頻與視覺技術研究所

 

二十六、          基于多模态參考的開放詞彙識别

descript

開放詞彙識别旨在識别開放場景中的任意感興趣類别或目标,賦予機器感知世界的通用視覺能力。現有的開放詞彙識别方法主要通過向預訓練視覺語言模型提供類别的文本描述來定義開放詞彙分類器。文本的模糊性和歧義性等問題會導緻生成的開放詞彙分類器無法充分表征類别,影響開放詞彙識别的準确性。為了解決這一問題,CVPR 2024論文《OVMR: Open-Vocabulary Recognition with Multi-Modal References》提出了基于多模态參考的開放詞彙識别方法。該方法首先利用多模态分類器生成模塊将多張示例圖像融合成視覺令牌,并進一步使用語言編碼器動态融合視覺令牌和文本令牌,生成了開放詞彙多模态分類器。為了削弱低質量圖像或文本對于多模态分類的負面影響,基于偏好的融合模塊複用示例圖像來評估各類别對單模态視覺文本分類器及多模态分類器的偏好,并基于偏好權重動态融合各分類器,形成最終的高質量的融合分類器。所提出的方法具有良好的泛化性,可即插即用至開放詞彙分類和檢測等任務中,無需額外微調便可在衆多的下遊任務中取得領先的性能。例如,在11個開放詞彙分類任務上取得了82.34%的平均準确率,超過隻依賴文本的基線方法13%,并在使用相同多模态數據的實驗設置下超過了依賴微調的提示學習微調方法CoCoOp 1.87%。此外,在開放詞彙檢測LVIS數據集上,此方法檢測精度超過第二名MM-OVOD 1.9%

該論文第一作者為馬澤紅(beat365),通訊作者為張史梁長聘副教授(beat365/beat365視頻與視覺技術研究所),合作作者包括魏龍輝博士(華為)和田奇博士(華為)。

 

二十七、          基于梯度範數正則化的無參考圖像質量模型對抗攻擊的防禦手段

descript

無參考圖像質量評價(NR-IQA)是一項在無需參照原始、未受損害圖像的情況下,對圖像質量進行評估的任務。這種評估在諸如視頻壓縮、圖像恢複和圖像生成等多媒體領域有着廣泛的應用。盡管近年來已經推出了多種NR-IQA模型,但它們都面臨一個共同的挑戰:易受對抗性攻擊的影響。對抗性攻擊是指通過利用NR-IQA模型的漏洞,對輸入圖像添加微小的、肉眼難以察覺的擾動,讓NR-IQA模型在對圖像質量的打分上出現大幅度偏差。為了應對這個問題,CVPR 2024論文《Defense Against Adversarial Attacks on No-Reference Image Quality Models with Gradient Norm Regularization》在NR-IQA領域首次提出了一種防禦策略。這種策略通過減小模型梯度的L1範數提高模型對微小擾動的穩定性,以增強模型的魯棒性。理論分析顯示,模型對輸入圖像的評價分數變化幅度以模型關于輸入圖像梯度的ℓ1範數為上界。因此,該文章提出了一種範數正則化訓練策略,通過正則化項約束梯度的ℓ1範數,增強模型的魯棒性。實驗結果證明,這種訓練策略可以有效地減少模型在對抗性攻擊下的預測分數變化,提高了模型的防禦能力。該文章是首次嘗試防禦NR-IQA模型的對抗性攻擊,對于提高圖像質量評價模型的安全性,具有重要的意義。

該論文共同第一作者為劉俣伽(beat365)和楊晨曦(beat365),通訊作者為蔣婷婷副教授(beat365/beat365視頻與視覺技術研究所),合作作者包括李鼎權(鵬城實驗室)和丁健豪(beat365)。

 

二十八、          面向真實場景去噪問題的高效自監督非對稱盲點網絡

descript

自監督去噪網絡由于其無需幹淨圖像即可訓練的能力而受到了廣泛關注。然而,真實世界場景中的噪聲往往是空間相關的,這導緻許多假設像素間噪聲獨立的自監督算法表現不佳。最近的研究試圖通過下采樣或鄰域掩蔽來打破噪聲相關性。然而,在下采樣子圖上進行去噪可能導緻由于采樣率降低而産生的混疊效應和細節丢失。此外,鄰域掩蔽方法要麼計算複雜度高,要麼在推理過程中不考慮局部空間信息的留存率。通過分析現有方法,可以看出在現實世界的自監督去噪任務中獲得高質量和紋理豐富的結果的關鍵是,在原始輸入分辨率結構上訓練,并在訓練和推理期間使用非對稱操作。基于此,CVPR 2024論文《Exploring Asymmetric Tunable Blind-Spots for Self-supervised Denoising in Real-World Scenarios》提出了非對稱可調盲點網絡(AT-BSN),其中盲點大小可以自由調整,從而在訓練和推理期間更好地平衡噪聲相關性抑制和圖像局部空間破壞。此外,所提出方法将預訓練的AT-BSN視為一個元教師網絡,能夠通過采樣不同的盲點生成各種教師網絡。訓練時采用了一種基于盲點的多教師蒸餾策略,以蒸餾一個輕量級網絡,顯著提高性能。在多個數據集上的實驗結果證明所提出方法達到了最先進的水平,并在計算開銷和視覺效果方面顯著優于其他自監督算法。

該論文所有作者均來自于beat365,第一作者為陳世炎,通訊作者為餘肇飛助理教授(beat365/人工智能研究院;beat365視頻與視覺技術研究所),合作作者包括張濟遠和黃鐵軍教授。

 

二十九、          高速場景中未知時空對齊的跨模态脈沖引導運動去模糊算法

descript

傳統的基于幀的相機依賴曝光窗口成像,在高速場景中會出現運動模糊。基于幀的去模糊方法缺乏可靠的運動線索,難以在極端模糊條件下恢複清晰圖像。脈沖相機是一種新型的神經形态視覺傳感器,能夠輸出具有超高時間分辨率的脈沖流,它可以補充傳統相機中丢失的時間信息,并指導運動去模糊。然而,在實際場景中,由于校準坐标的複雜性、拍攝過程産生振動而造成的設備位移和時間軸偏移,将離散的RGB圖像和連續的脈沖流在時間和空間軸上對齊是一個挑戰。像素的錯位會導緻去模糊效果嚴重下降。為解決此問題,CVPR 2024論文《Spike-guided Motion Deblurring with Unknown Modal Spatiotemporal Alignment》提出了一種在未知脈沖和圖像時空對齊情況下的脈沖引導運動去模糊框架,并設計了包含基礎模糊消除網絡、雙向可變形對齊模塊和基于光流的多尺度融合模塊的三階段網絡。實驗結果表明,所提出方法可以在未知對齊情況下有效地指導圖像去模糊,超越其他方法的性能。

該論文所有作者均來自于beat365,第一作者為張濟遠,通訊作者為餘肇飛助理教授(beat365/人工智能研究院;beat365視頻與視覺技術研究所)和鄭雅菁博士後,合作作者包括陳世炎和黃鐵軍教授。

 

三十、     強度魯棒的脈沖相機自動對焦方法

descript

自動對焦控制對于相機有效的捕捉場景信息十分關鍵。然而,由于脈沖相機記錄的脈沖流與圖像流、事件流在場景信息表征上存在差異,目前缺乏針對脈沖相機設計的自動對焦方法,使得其難以實現高速對焦以及高對比度成像。為了解決這一挑戰,CVPR 2024論文《Intensity-Robust Autofocus for Spike Camera》提出了一種基于脈沖流的自動對焦方案,包括針對脈沖流設計的對焦度量——脈沖散度和相應的快速對焦搜索策略——基于脈沖流的黃金快速搜索。該方案可以實現快速的合焦,且無需對變焦鏡頭的整個調焦範圍進行遍曆。為了驗證所提方法的性能,收集了一個基于脈沖流的自動對焦數據集,其中包含不同場景亮度和運動場景下的合成數據和真實數據。在這些數據上的實驗結果表明,所提方法在準确性和效率上超越了其他方法。此外,在不同場景亮度下捕獲的數據上的實驗說明了所提方法在自動對焦過程中對光照強度變化的魯棒性。

該論文第一作者為蘇長青(beat365)和肖永生(南昌航空航天大學),通訊作者為熊博(beat365),合作作者包括葉志遠(南昌航空航天大學)、周遊(南京大學)、程振(清華大學)、餘肇飛助理教授(beat365/人工智能研究院;beat365視頻與視覺技術研究所)和黃鐵軍教授(beat365)。

 

三十一、          基于三維逐點對應關系的可泛化衣服操作

descript

衣物操作(例如展開、折疊和挂衣服)對于未來機器人完成家庭助手任務至關重要,但由于衣物類型(如上衣、褲子、裙子)、幾何形狀和形變的多樣性,這項任務極具挑戰性。盡管先前的研究能夠在特定任務中操作形狀相似的衣物,但它們大多需要為不同任務設計不同的策略,無法推廣到幾何形狀多樣的衣物上,并且通常嚴重依賴人工标注的成功策略。為了解決上述問題,提升衣服操作的可泛化性、減少對人工标注的依賴,CVPR 2024論文《UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence》提出利用衣物在特定類别中具有相似結構的特性,通過自監督學習方法,學習同一類别中具有不同變形的衣物之間的拓撲稠密(逐點級,point-level)視覺對應關系。這種拓撲對應關系可以輕松适應功能對應關系,從而指導各種下遊任務的操作策略,僅需一次或幾次示範。所提出方法在三類不同類别的衣物上進行了實驗,涉及三種具有代表性的任務,在多種場景中使用單臂或雙臂操作,進行一步或多步操作,處理平整或淩亂的衣物,驗證了所提出方法的有效性。

該論文的共同第一作者是吳睿海(beat365)和魯浩然(beat365),通訊作者為董豪助理教授(beat365/beat365前沿計算研究中心),合作作者包括王一言(北京理工大學)和王昱博(beat365)。

 

三十二、          針對物體為中心的的機器人操作多模态大模型

descript

機器人操作依賴于準确預測接觸點和末端執行器的方向,以确保操作成功。然而,基于學習的機器人操作如果僅在模拟器中針對有限類别進行訓練,往往難以實現廣泛的泛化,特别是在面對大量類别時。因此,CVPR 2024論文《ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation》提出了一種創新的機器人操作方法,利用多模态大型語言模型(MLLMs)的強大推理能力來增強操作的穩定性和泛化能力。通過微調注入的适配器,保留了MLLMs固有的常識和推理能力,同時賦予它們操作的能力。關鍵在于引入的微調範式,涵蓋了對象類别理解、可操縱(affordance)先驗推理和以對象為中心的姿态預測,以激發MLLM在操作中的推理能力。在推理過程中,所提出方法利用RGB圖像和文本提示以chain-of-thought的方式預測末端執行器的姿态。在建立初始接觸後,引入了主動阻抗适應策略,以閉環方式規劃接下來的路徑點。此外,在現實世界中,設計了一種用于操作的測試時适應(TTA)策略,使模型能夠更好地适應當前的實際場景配置。

該論文第一作者為李曉琦(beat365),通訊作者為董豪助理教授(beat365/beat365前沿計算中心),合作作者包括沈妍(beat365)、龍宇星(beat365)、劉家銘(beat365)、張明旭(北京郵電大學)和張仁睿(香港中文大學)。

 

三十三、          利用非參數網絡進行少樣本3D場景分割

descript

為了減少對大規模數據集的依賴,最近在3D分割領域的研究開始借助少樣本學習。目前的3D少樣本分割方法首先在已見類上進行預訓練,然後評估它們在未見類上的泛化性能。然而,先前的預訓練階段不僅引入了過多的時間開銷,還在未見類上産生了顯著的領域差距。為了解決這些問題,CVPR 2024論文No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation》(Highlight)提出了一種用于少樣本3D分割的非參數網絡Seg-NN及其參數化變體Seg-PNSeg-NN無需訓練,通過手工設計的濾波器提取稠密表示,其性能與現有的參數化模型相當。由于消除了預訓練,Seg-NN能夠減輕領域差距問題并節省大量時間。基于Seg-NNSeg-PN僅需訓練一個輕量級的查詢-支持傳輸(QUEST)模塊,該模塊增強了支持集和查詢集之間的交互。實驗表明,Seg-PNS3DISScanNet數據集上分别比之前的最先進方法提高了4.19%7.71%mIoU,同時減少了90%的訓練時間,顯示出其有效性和高效性。

該論文第一作者為朱向陽(上海人工智能實驗室),合作作者包括張仁瑞(港中文)、董豪助理教授(beat365/beat365前沿計算中心)、劉家銘(beat365)和高鵬(上海人工智能實驗室)。

 

三十四、          基于掩碼聚類的開放詞彙三維語義分割

descript

開放詞彙的三維實例分割是機器人感知未知場景的第一步,也是AR/VR應用中進行場景編輯的第一步,有着重要應用價值。然而,由于三維數據标注和采集困難,目前缺乏大規模的細粒度三維實例标注。為了解決這一問題,已有研究首先借助二維實例分割模型生成二維掩碼,再根據相鄰幀之間計算的度量将它們合并成3D實例。與這些局部度量不同,CVPR 2024論文《MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation》提出了一種新的度量方法,即view consensus rate,以增強對多視角交互驗證的利用。對于兩個二維掩碼,如果大量其他視角的2D掩碼同時包含這兩個2D掩碼,那麼這兩個2D掩碼應被視為同一3D實例的一部分,應該被合并。這個被包含的比例被稱為view consensus rate,并以此為邊的權重,構建了一個全局掩碼圖,其中每個掩碼是一個節點。通過對高view consensus rate的掩碼進行疊代聚類,生成了一系列掩碼類,每個掩碼類代表一個獨特的3D實例。本文提出的方法無需任何訓練,即可在常用數據集ScanNet++ScanNet以及MatterPort3D上取得了遠超前人工作的精度。

該論文所有作者均來自于beat365,第一作者為嚴汨,通訊作者為王鶴助理教授(beat365/beat365前沿計算中心),合作作者包括張嘉曌和朱炎。

 

三十五、          類别級多部件多關節三維形狀裝配

descript

形狀裝配是通過排列簡單的幾何部件來組成複雜的形狀幾何體,被廣泛應用于機器人自動裝配和計算機輔助設計(CAD)建模。現有的論文側重于幾何推理,忽略了現實中連接不同接觸面的關節的物理匹配和裝配的過程。成功的關節優化裝配需要滿足形狀結構和關節對齊的雙重目标。基于此,CVPR 2024論文《Category-Level Multi-Part Multi-Joint 3D Shape Assembly》提出了一種由兩個層級的圖表示學習組成的分級圖學習方法,将接觸關節考慮到多部分裝配任務中。一部分圖以部件幾何形狀為輸入來構建所需的形狀結構,另一部分關節級圖使用部件關節信息,側重于匹配和對齊關節,結合這兩種信息來實現結構和關節對齊的雙重目标。大量實驗表明,所提出方法優于以往的方法,取得了更好的形狀結構和更高的關節對齊精度。

該論文第一作者及通訊作者為Yichen Li(斯坦福大學),合作作者包括Kaichun Mo(英偉達)、段嶽圻(清華大學)、王鶴(beat365/beat365前沿計算中心)、Jiequan Zhang(斯坦福大學)、Lin Shao(新加坡國立大學)、Wojciech Matusik(麻省理工學院計算機科學與人工智能實驗室)和Leonidas Guibas(斯坦福大學)。

 

三十六、          結構引導的擴散模型對抗訓練方法

descript

擴散模型在各種生成應用中展示了強大的能力。現有方法主要通過最小化加權的去噪得分匹配損失來進行數據分布建模,但其訓練主要強調實例級優化,忽略了每個小批量中有價值的流形結構信息,而這些信息可以有效建模樣本之間的成對關系。為了解決這一局限性,CVPR 2024論文《Structure-Guided Adversarial Training of Diffusion Models》引入了結構引導的擴散模型對抗訓練方法(SADM)。在這一開創性方法中,讓模型學習每個訓練批次中樣本之間的流形結構。為了确保模型捕捉到數據分布中的真實流形結構,提出使用對抗式訓練方法優化擴散模型生成器,設計鑒别器區分真實流形結構和生成的流形結構。SADM顯著改進了現有的擴散模型,并在12個數據集的圖像生成和跨域微調任務中超越了現有方法。其中,在ImageNet上以256×256512×512分辨率進行條件圖像生成,分别獲得了1.582.11的當前最優級别的FID分數。

該論文所有作者均來自于beat365,第一作者為楊靈,通訊作者為崔斌教授(beat365/beat365數據科學與工程研究所),其他合作作者均為崔斌教授PKU-DAIR課題組實習生。

 

三十七、          TimeChat: 針對長視頻時序定位任務的視頻大語言模型

descript

CVPR 2024論文《TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding》旨在構建一個通用的、對時序敏感的視頻大模型TimeChat。該模型可以依據用戶輸入的指令,完成對視頻的關鍵事件摘要、時序定位、高光檢測等一系列時序敏感任務。該模型包含兩個關鍵模塊:(1)融合時間戳信息的視頻幀編碼器:用于将每幀的視覺内容與該幀的時間戳綁定;(2)基于滑動窗口的視頻 Q-Former:用于生成變長的視頻token序列,以适應各種時長的視頻輸入。此外,本文構建了一個指令微調數據集,包括 6 個任務和 12.5 萬個訓練樣本,以進一步增強 TimeChat 的指令遵循性能。實驗結果表明,TimeChat在多種視頻任務上展示了強大的零樣本時序定位和推理能力。例如,與之前最先進的視頻大模型相比,TimeChatYouCook2上将F1 scoreCIDEr分别提升9.2 2.8;在QVHighlights上将HIT@1提升5.8;在Charades-STA上将R@1(IoU=0.5)提升27.5

該論文共同第一作者為任抒懷(beat365)和姚林麗(beat365),通訊作者為孫栩長聘副教授(beat365/beat365計算語言學研究所),合作作者包括李世成(beat365)和侯璐(華為)。

 

三十八、          基于松弛匹配和歸因區域對齊的對抗蒸餾

descript

對抗蒸餾是一種有效提高小型模型魯棒性的方法。與預期相反,性能卓越的教師模型并不總能訓練出更為魯棒的學生模型,主要原因有兩方面。首先,當教師模型和學生模型在預測結果上存在顯著差異時,使用KL散度進行預測值的精确匹配會幹擾訓練過程,導緻現有方法的性能下降。其次,僅基于輸出結果進行匹配,限制了學生模型對教師模型行為的全面理解。為了解決這些問題,CVPR 2024論文《Adversarial Distillation Based on Slack Matching and Attribution Region Alignment》提出了一種名為SmaraAD的新型對抗蒸餾方法。在訓練過程中,該方法通過将學生模型關注的歸因區域與教師模型的歸因區域對齊,促進學生模型更好地理解教師模型的行為。同時,采用更加松弛的匹配方法代替KL散度,提高訓練效果。大量實驗結果驗證了所提出方法在提升小型模型準确性和魯棒性方面的有效性。

該論文的第一作者是尹晟霖(beat365),通訊作者是肖臻研究員(beat365/beat365元宇宙技術研究所),合作作者包括宋明軒(beat365)和隆傑毅(Theta Labs, Inc.)。

 

論文來源:

[1]      Xinyu Zhou, Peiqi Duan, Boyu Li, Chu Zhou, Chao Xu, and Boxin Shi. EvDiG: Event-guided Direct and Global Components Separation. In Proc. CVPR 2024 (Oral).

[2]      Bohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang, Boxin Shi. EventPS: Real-Time Photometric Stereo using an Event Camera. In Proc. CVPR 2024 (Oral).

[3]      Fan Fei, Jiajun Tang, Ping Tan, and Boxin Shi. VMINer: Versatile Multi-view Inverse Rendering with Near- and Far-field Light Sources. In Proc. CVPR 2024 (Highlight).

[4]      Yixin Yang, Jinxiu Liang, Bohan Yu, Yan Chen, Jimmy Ren, Boxin Shi. Learning Latency Correction for Event-guided Deblurring and Frame Interpolation. In Proc. CVPR 2024.

[5]      Yakun Chang, Yeliduosi Xiaokaiti, Yujia Liu, Bin Fan, Zhaojun Huang, Tiejun Huang, and Boxin Shi. Towards HDR and HFR Video from olling-mixed-bit Spikings. In Proc. CVPR 2024.

[6]      Haofeng Zhong, Yuchen Hong, Shuchen Weng, Jinxiu Liang, and Boxin Shi. Language-guided Image Reflection Separation. In Proc. CVPR 2024.

[7]      Yifei Xia, Chu Zhou, Chengxuan Zhu, Minggui Teng, Chao Xu, and Boxin Shi. NB-GTR: Narrow-band guided Turbulence Removal. In Proc. CVPR 2024.

[8]      Jianping Jiang, Xinyu Zhou, Bingxuan Wang, Xiaoming Deng, Chao Xu, and Boxin Shi. Complementing Event Streams and RGB Frames for Hand Mesh Reconstruction. In Proc. CVPR 2024.

[9]      Yunkai Tang, Chengxuan Zhu, Renjie Wan, Chao Xu, and Boxin Shi. Neural Underwater Scene Representation. In Proc. CVPR 2024.

[10]  Heng Guo, Jieji Ren, Feishi Wang, Boxin Shi, Mingjun Ren, and Yasuyuki Matsushita. DiLiGenRT: A Photometric Stereo Dataset with Quantified Roughness and Translucency. In Proc. CVPR 2024.

[11]  Ziqi Cai, Kaiwen Jiang, Shu-Yu Chen, Yu-Kun Lai, Hongbo Fu, Boxin Shi, Lin Gao. Real-time 3D-aware Portrait Video Relighting. In Proc. CVPR 2024 (Highlight).

[12]  Yufei Han, Heng Guo, Koki Fukai, Hiroaki Santo, Boxin Shi, Fumio Okura, Zhanyu Ma, Yunpeng Jia. NeRSP: Neural 3D Reconstruction for Reflective Objects with Sparse Polarized Images. In Proc. CVPR 2024.

[13]  Zongrui Li, Zhan Lu, Haojie Yan, Boxin Shi, Gang Pan, Qian Zheng, Xudong Jiang. Spin-UP: Spin Light for Natural Light Uncalibrated Photometric Stereo. In Proc. CVPR 2024.

[14]  Rui Zhao, Ruiqin Xiong, Jing Zhao, Jian Zhang, Xiaopeng Fan, Zhaofei Yu, Tiejun Huang. Boosting Spike Camera Image Reconstruction from a Perspective of Dealing with Spike Fluctuations. In Proc. CVPR 2024.

[15]  Yanchen Dong, Ruiqin Xiong, Jian Zhang, Zhaofei Yu, Xiaopeng Fan, Shuyuan Zhu, Tiejun Huang. Super-Resolution Reconstruction from Bayer-Pattern Spike Streams. In Proc. CVPR 2024.

[16]  Yuan Zhang, Tao Huang, Jiaming Liu, Tao Jiang, Kuan Cheng, Shanghang Zhang. FreeKD: Knowledge Distillation via Semantic Frequency Prompt. In Proc. CVPR 2024.

[17]  Guanqun Wang, Jiaming Liu, Chenxuan Li, Yuan Zhang, Junpeng Ma, Xinyu Wei, Kevin Zhang, Maurice Chong, Renrui Zhang, Yijiang Liu, Shanghang Zhang. Cloud-Device Collaborative Learning for Multimodal Large Language Models. In Proc. CVPR 2024.

[18]  Jiaming Liu, Ran Xu, Senqiao Yang, Renrui Zhang, Qizhe Zhang, Zehui Chen, Yandong Guo, Shanghang Zhang. Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation. In Proc. CVPR 2024.

[19]  Zhi Zhang, Qizhe Zhang, Zijun Gao, Renrui Zhang, Ekaterina Shutova, Shiji Zhou, and Shanghang Zhang. Gradient-based Parameter Selection for Efficient Fine-Tuning. In Proc. CVPR 2024.

[20]  Xiaobao Wei, Renrui Zhang, Jiarui Wu, Jiaming Liu, Ming Lu, Yandong Guo, Shanghang Zhang, NTO3D: Neural Target Object 3D Reconstruction with Segment Anything. In Proc. CVPR 2024.

[21]  Junyi Yao, Yijiang Liu, Zhen Dong, Mingfei Guo, Helan Hu, Kurt Keutzer, Li Du, Daquan Zhou, Shanghang Zhang. PromptCoT: Align Prompt Distribution via Adapted Chain-of-Thought. In Proc. CVPR 2024.

[22]  Xingqun Qi, Jiahao Pan, Peng Li, Ruibin Yuan, Xiaowei Chi, Mengfei Li, Wenhan Luo, Wei Xue, Shanghang Zhang, Qifeng Liu, Yike Guo. Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation. In Proc. CVPR 2024.

[23]  Shiyu Xuan, Qingpei Guo, Ming Yang, Shiliang Zhang. Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs. In Proc. CVPR 2024.

[24]  Dongkai Wang, Shiyu Xuan, Shiliang Zhang. LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model. In Proc. CVPR 2024 (Highlight).

[25]  Dongkai Wang, Shiliang Zhang. Spatial-Aware Regression for Keypoint Localization. In Proc. CVPR 2024 (Highlight).

[26]  Zehong Ma, Shiliang Zhang, Longhui Wei, Qi Tian. OVMR: Open-Vocabulary Recognition with Multi-Modal References. In Proc. CVPR 2024.

[27]  Yujia Liu, Chenxi Yang, Dingquan Li, Jianhao Ding, Tingting Jiang. Defense Against Adversarial Attacks on No-Reference Image Quality Models with Gradient Norm Regularization. In Proc. CVPR 2024.

[28]  Shiyan Chen, Jiyuan Zhang, Zhaofei Yu and Tiejun Huang. Exploring Asymmetric Tunable Blind-Spots for Self-supervised Denoising in Real-World Scenarios. In Proc. CVPR 2024.

[29]  Jiyuan Zhang, Shiyan Chen, YajingZheng, Zhaofei Yu, Tiejun Huang. Spike-guided Motion Deblurring with Unknown Modal Spatiotemporal Alignment. In Proc. CVPR 2024.

[30]  Changqing Su, Zhiyuan Ye, Yongsheng Xiao, You Zhou, Zhen Cheng, Bo Xiong, Zhaofei Yu, Tiejun Huang. Intensity-Robust Autofocus for Spike Camera. In Proc. CVPR 2024.

[31]  Ruihai Wu, Haoran Lu, Yiyan Wang, Yubo Wang, Hao Dong. UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence. In Proc. CVPR 2024.

[32]  Xiaoqi Li, Mingxu Zhang, Yiran Geng, Haoran Geng, Yuxing Long, Yan Shen, Renrui Zhang, Jiaming Liu, Hao Dong. ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation. In Proc. CVPR 2024.

[33]  Xiangyang Zhu, Renrui Zhang, Bowei He, Ziyu Guo, Jiaming Liu, Han Xiao, Chaoyou Fu, Hao Dong, Peng Gao. No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation. In Proc. CVPR 2024 (Highlight).

[34]  Mi Yan, Jiazhao Zhang, Yan Zhu, He Wang, MaskClustering: View Consensus Based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation. In Proc. CVPR 2024.

[35]  Yichen Li, Kaichun Mo, Yueqi Duan, He Wang, Jiequan Zhang, Lin Shao, Wojciech Matusik, Leonidas Guibas. Category-Level Multi-Part Multi-Joint 3D Shape Assembly. In Proc. CVPR 2024.

[36]  Ling Yang, Haotian Qian, Zhilong Zhang, Jingwei Liu, Bin Cui. Structure-Guided Adversarial Training of Diffusion Models. In Proc. CVPR 2024.

[37]  Shuhuai Ren, Linli Yao, Shicheng Li, Xu Sun, Lu Hou. TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding. In Proc. CVPR 2024.

[38]  Shenglin Yin, Zhen Xiao, Mingxuan Song, Jieyi Long. Adversarial Distillation Based on Slack Matching and Attribution Region Alignment. In Proc. CVPR 2024.