近日,人工智能領域頂級會議AAAI公布了2025年的論文錄用結果,深圳北理莫斯科大學粵港澳情感智能與普適計算聯合實驗室師生投稿的六篇文章順利入選,文章涉及到情感計算、自動駕駛、自然語言處理等多個研究領域。
?AAAI為國際人工智能協會(Association for the Advancement of Artificial Intelligence)?,每年舉辦的AAAI年會是人工智能領域的頂級會議,是中國計算機學會CCF推薦的A類國際學術會議。本次會議共有12,957篇投稿,接收率僅為 23.4%。會議將于2025年2月25日-3月4日在美國賓夕法尼亞州費城召開。
入選論文介紹
1. 論文題目:Understanding Emotional Body Expressions via Large Language Models

摘要:
基于肢體動作的情感識別在人機交互中至關重要。然而,現有方法主要聚焦于情感分類,不能進一步提供文本解釋來驗證其分類的合理性。本文提出了一個由大語言模型驅動的情緒-動作解釋器(EAI-LLM),它不僅可以識別情緒,還可以針對輸入的3D骨架序列來生成相應的文本解釋。具體而言,研究將骨架序列視為一種特殊的語言,提出一種多粒度骨架序列標記器。該標記器可以將來自異構數據集的骨架序列統一提取時空標記和語義標記,利用LLMs廣泛的背景知識和語言處理能力來解決異構數據集聯合訓練的挑戰,從而顯著提高識別精度,并生成細粒度的情感描述。實驗結果表明,在LLMs背景知識的支持下,EAI-LLM模型可以在有限標記的骨架序列上進行微調,生成詳細的情緒描述,且識別精度與現有方法相當甚至更佳。
2. 論文題目:Dual-View Interaction-Aware Lane Change Prediction for Autonomous Driving

摘要:
隨著人工智能技術的不斷發展,我們正邁向自動駕駛車輛廣泛部署的關鍵時刻。然而,由此帶來的混合自主交通環境為自動駕駛車輛帶來了嚴峻挑戰,尤其是對周圍有人駕駛車輛變道意圖的準確預測,這對于保障自動駕駛車輛的安全至關重要。現有的變道預測模型主要集中于捕捉單輛車輛運動動態的時間變化,但忽視了車輛間的交互關系,這在復雜的變道場景中限制了其預測能力,導致性能不理想。此外,目前的交互感知方法無法對車輛之間的未來交互進行建模,容易產生不合理的預測結果,可能引發車輛碰撞。針對上述問題,本研究提出將感知安全的概念融入未來交互建模,并設計了一種雙視角交互感知變道預測模型。在兩個真實數據集上的評估結果表明,該模型在分類能力上相比表現最優的基線模型平均提升了11.7%-12.4%,在預測能力上提升了75.6%-95.7%。通過消融研究和對未來交互建模的分析,證明了我們模型在從駕駛安全視角解釋變道場景方面的優勢,并實現了社會化感知的變道預測。
3. 論文題目:Learning to Generate Gradients for Test-Time Adaptation

摘要:
測試時自適應(TTA)旨在使用未標記的測試數據在線微調已訓練好的模型,以適應新環境或分布外的數據,在實際場景中表現出廣泛的應用潛力。然而,在這個優化過程中,像熵最小化這樣的無監督學習目標經常會遇到嘈雜的學習信號。這些信號產生不可靠的梯度,阻礙了模型快速收斂到最優解的能力,并在優化過程中引入了顯著的不穩定性。本研究試圖從優化器設計的角度解決這些問題。與之前使用 SGD 等手動設計的優化器的TTA方法不同,我們采用一種學習優化的方法來自動學習一個稱為元梯度生成器(MGG)的優化器。具體來說,研究的目標是讓MGG在在線優化過程中有效利用歷史梯度信息來優化當前模型。為此,在MGG中,我們設計了一個輕量級且高效的序列建模層——梯度記憶層。它利用自監督重構損失將歷史梯度信息壓縮為網絡參數,從而在長期適應過程中實現更好的記憶能力。只需要少量未標記的樣本來預訓練MGG,就可以部署訓練后的MGG來處理未見過的樣本。ImageNet-C/R/Sketch/A上的實驗結果表明,這一研究的方法以更少的更新次數、更少的數據和更短的自適應時間超越了當前最先進的方法。與之前的SOTA方法SAR相比,本文的研究在ImageNet-C上實現了7.4%的準確率和4.2倍的適應速度提升。
4. Training on the Benchmark Is Not All You Need

摘要:
大規模語言模型(LLMs)的成功在很大程度上依賴于在預訓練階段學習到的大量預訓練數據。預訓練過程及其數據的不透明性導致許多基準測試的結果變得不可靠。如果任何模型已經在基準測試集上進行了訓練,這可能會嚴重阻礙該領域的健康發展。為了自動化和高效地測試大規模語言模型的能力,許多主流基準測試采用了多項選擇題的格式。由于多項選擇題選項內容的交換不影響問題本身的含義,該研究提出了一種基于這一特性的簡單有效的數據泄露檢測方法。具體來說,研究通過打亂數據中選項的內容來生成相應的衍生數據集,然后基于模型在這些衍生數據集上的對數概率分布檢測數據泄露。如果在對數概率的集合中存在最大值或異常值,便表示數據發生了泄露。該論文研究的方法能夠在黑盒條件下工作,無需訪問模型的訓練數據或權重,有效識別模型預訓練數據中來自基準測試集的數據泄露,包括正常情況以及選項可能被有意或無意地打亂的復雜情況。通過基于兩種大規模語言模型和基準設計的實驗,該研究展示了該方法的有效性。此外,研究還評估了31個主流開源大規模語言模型在四個基準數據集上的數據泄露程度,并對每個基準數據集中的泄露模型進行了排名,發現Qwen家族的大規模語言模型泄露程度最高。
5. 論文題目:Multi-Label Few-Shot Image Classification via Pairwise Feature Augmentation and Flexible Prompt Learning

摘要:
由于注釋數據有限和類別特異性難以捉摸,多標簽少樣本圖像分類是一項至關重要且極具挑戰性的任務。然而,對這一課題的研究仍處于初級階段,可用的方法很少。現有的方法要么利用數據增強來緩解數據稀缺的問題,要么利用標簽特征作為輔助知識來消除不相關類別帶來的負面影響,但它們忽視了利用圖像區域特征進行數據增強,也忽略了學習適當的文本特征來更好地匹配特定類別的圖像特征。此外,這些方法只關注了一個方面,沒有同時有效地解決上述兩個問題。本文介紹了一種新穎的基于原型的多標簽少樣本圖像學習框架,它將成對特征增強和靈活的提示學習結合在一起。具體來說,通過成對特征增強,利用支持集中圖像的區域特征來生成更多圖像特征并構建圖像原型,從而緩解了數據稀缺的問題。通過靈活的提示學習,自適應地獲取特定類別的提示,構建與特定類別圖像特征高度匹配的文本原型,從而減輕無關類別的影響。最后,通過自適應可學習參數,將圖像原型和文本原型合并,得到最終原型,從而為多標簽少樣本圖像分類提供更強大的分類器。廣泛的實驗結果表明,這一研究提出的方法可以將基準性能推向更高水平。
6. 論文題目:Efficient Language-instructed Skill Acquisition via Reward-Policy Co-Evolution

摘要:
在機器人自主學習領域,高效地通過語言指令獲取技能對于減少人工指導至關重要。盡管強化學習方法在很大程度上減輕了人工干預,但設計真實世界任務的獎勵函數,尤其是高維機器人控制任務的獎勵函數,仍然面臨巨大挑戰。最近,隨著大型語言模型(LLMs)的進步,自動設計獎勵函數變得可行。然而,現有方法在評估獎勵函數時,往往需要從頭開始重新訓練策略,這對獎勵函數提出了過高的要求,期望其在策略改進的每個階段——從初始階段到收斂階段——都能有效。為了解決這一問題,本文提出了一種新穎的獎勵-策略共同演化框架(ROSKA),該框架允許獎勵函數和學習策略相互促進、共同演化,從而在每個階段逐步實現即時改進,最終高效地獲取機器人技能。具體而言,獎勵演化過程通過將機器人之前最優的獎勵函數、任務描述和環境信息轉化為文本輸入,查詢LLMs生成多個獎勵函數候選,并確保每輪演化都能帶來持續改進。在策略演化方面,本研究的方法通過混合歷史最優策略和隨機策略來生成新的策略種群。結合改進的貝葉斯優化算法,本研究的方法能夠高效且穩健地識別最具潛力的獎勵-策略組合,進而進入下一輪的共同演化。實驗結果表明,這一研究的方法能夠在使用更少的訓練樣本情況下在多種高維機器人技能學習任務中實現了平均95.3%的歸一化性能提升,突出了其在提高機器人在復雜環境中的適應性和精確性方面的有效性。通過與稀疏獎勵方法、人工設計獎勵方法以及傳統LLM設計獎勵函數方法的比較,ROSKA在所有任務中均展現出卓越的性能,特別是在ShadowHand和FrankaCabinet任務中,分別實現了相對于人工設計獎勵的4倍和8倍性能提升。這些結果不僅證明了ROSKA在機器人自主學習領域的巨大潛力,也展示了其在實際應用中的廣泛適用性。