LSLM

9 个月前

人工智能语音识别自然语言处理人机交互

Listening-while-Speaking Language Model (LSLM)是一款旨在提升人机交互自然度的人工智能对话模型。它通过全双工建模(FDM)技术，实现了在说话时同时监听的能力，增强了实时交互性，尤其是在生成内容不满意时能够被打断和实时响应。LSLM采用了基于token的解码器仅TTS进行语音生成，以及流式自监督学习(SSL)编码器进行实时音频输入，通过三种融合策略（早期融合、中期融合和晚期融合）探索最佳交互平衡。