盡管視覺(jué)語(yǔ)言模型(LVLMs)在圖像與短視頻理解中已取得顯著進(jìn)展,但在處理長(zhǎng)時(shí)序、復(fù)雜語(yǔ)義的視頻內(nèi)容時(shí)仍面臨巨大挑戰(zhàn) —— 上下文長(zhǎng)度限制、跨模態(tài)對(duì)齊困難、計(jì)算成本高昂等問(wèn)題制約著其實(shí)際應(yīng)用。針對(duì)這一難題,廈門大學(xué)、羅切斯特大學(xué)與南京大學(xué)聯(lián)合提出了一種輕量高效、無(wú)需微調(diào)的創(chuàng)新框架 ——Video-RAG。該研究已被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 NeurIPS 2025 接收,為長(zhǎng)視頻理解任務(wù)提供了全新的解決思路。
