語音交互作為人機通信的關鍵接口,長期以來受限于高延遲、低自然度的交替式對話架構。為突破這一瓶頸,北京智源人工智能研究院聯合 Spin Matrix 與新加坡南洋理工大學,正式發布RoboBrain-Audio(FLM-Audio)首個支持 “自然獨白 + 雙訓練范式” 的原生全雙工語音對話大模型。

RoboBrain-Audio 采用原生全雙工 (Native Full-duplex) 架構,相比傳統的 TDM(時分復用)模型在響應延遲、對話自然度上實現飛躍式提升,同時語言理解能力顯著強于其他原生全雙工模型,標志著具身智能體從 “能聽會說” 向 “邊聽邊說” 的交互能力躍遷。
根據公開數據,當前業界訓練音頻基座模型時使用的數據量已達到上千萬乃至上億小時,這些模型在音色克隆和長回復生成上更具優勢,而 RoboBrain-Audio 僅使用 100 萬小時 (業界數據量的 1%) 數據訓練,不但回復質量滿足日常交互需求,而且具有響應模式更為敏捷自然等優勢,尤其適配具身場景。RoboBrain-Audio(FLM-Audio)相關論文已公開發布,模型與代碼均已開源。