
時間:9月23日下午15:00
地點:主樓536會議室
報告摘要:近年來,得益于計算機視覺技術(shù)和自然語言處理技術(shù)的蓬勃發(fā)展,使用視覺與語言等多模態(tài)數(shù)據(jù)進行綜合推理成為了人工智能領(lǐng)域關(guān)注的焦點之一。在此基礎(chǔ)上,結(jié)合了機器人動作預(yù)測的視覺語言導(dǎo)航任務(wù)被提出來,將問題拓展到了視覺-語言-動作的方向上來。該任務(wù)要求機器人理解自然語言形式的導(dǎo)航指令,并通過執(zhí)行一系列導(dǎo)航動作到達(dá)指定地點。該任務(wù)涵蓋了自然語言理解、導(dǎo)航策略設(shè)計和多模態(tài)數(shù)據(jù)融合等多個科學(xué)問題,解決這些問題是邁向視覺推理的必經(jīng)之路。本次學(xué)術(shù)報告將介紹融合知識表征學(xué)習(xí)的視覺語言導(dǎo)航研究,重點探討如何在視覺語言導(dǎo)航任務(wù)中提升導(dǎo)航器的推理能力與可解釋性。研究的主要創(chuàng)新包括:提出物體信息融合方法,增強導(dǎo)航器對簡潔指令的感知能力;通過設(shè)計高階場景信息編碼器,注入房型提示信息,提升導(dǎo)航器的場景感知能力;基于大規(guī)模語言模型,構(gòu)建可解釋的導(dǎo)航推理算法,提升導(dǎo)航器的泛化能力和推理效率。
主講嘉賓簡介:詹昭煥,男,廣東汕尾人。本科就讀于東北大學(xué)自動化專業(yè),碩士就讀于四川大學(xué)信息與通信工程專業(yè),博士就讀于中山大學(xué)計算機科學(xué)與技術(shù)專業(yè)。主要從事多模態(tài)人工智能、具身智能和計算機視覺等研究,以第一作者身份在相關(guān)領(lǐng)域知名期刊上發(fā)表多篇論文,包括IEEE TCSVT、Neurocomputing等。另以主要參與人的身份在多個國內(nèi)外知名期刊或會議上發(fā)表論文逾10篇。擔(dān)任IEEE TCSVT,Information Fusion,ACM Mm等國際期刊或會議審稿人。曾作為主要參與人參與國家自然科學(xué)基金面上項目和深圳市基礎(chǔ)研發(fā)重點項目,曾榮獲四川大學(xué)優(yōu)秀碩士。