在近期的計算機多媒體領域國際學術會議IEEE International Conference on Multimedia and Expo (2019年7月8-12)上,來自beat365信息科學技術學院計算機科學技術系數字媒體所、數字視頻編解碼技術國家工程實驗室段淩宇教授課題組的論文“TOWARDS DIGITAL RETINA IN SMART CITIES:A MODEL GENERATION, UTILIZATION AND COMMUNICATION PARADIGM (智慧城市數字視網膜的模型生成、利用和傳輸範式)”榮獲大會最佳論文獎。論文第一作者為beat365信息科學技術學院2015級博士生樓燚航,通訊作者為段淩宇教授。ICME是計算機多媒體領域的旗艦學術會議。本次會議共收到來自36個國家或地區的1000餘篇論文投稿,論文接受率約31%。

高文院士團隊借鑒人類視網膜機理,提出了數字視網膜計算架構,實現特征實時彙聚、視頻按需調取、前端軟件可定義的功能。面向城市數字視網膜計算,該獲獎論文首次提出了視頻流、特征流與模型流的多流協作計算模式,改善了城市大腦的視覺通路,有效克服端-邊-雲協同計算的模型重用與傳輸瓶頸,為視頻數據大規模彙聚、存儲和計算提供了新思路。
段淩宇教授課題組在數字視網膜研究與實踐中發現,數字視網膜計算框架的邊緣節點緩存了大量表征識别模型與無标簽數據。為此,課題組首次提出一種多模型重用機制,有效利用數字視網膜框架下邊緣節點緩存的模型和數據,生成更具域适應性和判别力的目标模型。針對多模型重用風險,論文給出了理論證明與分析,并在實驗中取得了相比傳統方法更優的性能增益。在視網膜計算框架下,模型的頻繁傳輸與部署會帶來較大的通信開銷;為此,該工作進一步提出了模型之間高效通信的新問題,并提出了一種新穎的差分模型壓縮方法,相比傳統的單模型壓縮方法,可有效降低模型傳輸代價。該論文圍繞視頻流、特征流、模型流,提出了城市視覺系統中的協同計算新問題,對于未來數字視網膜理論研究與實踐具有指導意義。
段淩宇教授長期從事以機器識别為目标驅動的視覺特征分析與壓縮研究工作,以壓縮傳輸視覺特征為突破口,通過彙聚大規模緊湊視覺特征,實現視覺對象精準分析與識别,克服了聯網分析識别提出的實時數據彙聚挑戰。課題組圍繞視覺特征的緊湊表示、模式學習、高效索引三方面系統地開展了研究工作,提升了特征的緊湊性與辨識力,優化了大規模特征檢索的可擴展性,并通過制定标準解決了傳輸壓縮特征所引發的互操作問題,全面實現了特征的小、準、快、通。作為主起草人,制定了緊湊視覺特征國際标準MPEG-CDVS與MPEG-CDVA,将多項研究成果轉化成為标準規範化核心技術。MPEG-CDVS成為多媒體領域我國主導制定的首項ISO國際标準。相關成果獲2017年度國家技術發明獎二等獎、2016年度教育部技術發明獎一等獎、2017年度中國專利優秀獎。整體研究成果已被著名互聯網公司與安防領域重點企業采納并投入運營。現擔任新一代人工智能産業技術創新戰略聯盟(AITISA)視覺特征編碼标準組組長,圍繞數字視網膜計算框架,緻力于我國自主知識産權的人工智能标準化技術。