给语音模型戴上「眼镜」，错误率降低125！人大CMU最新开源

给语音模型戴上「眼镜」，错误率降低12.5%！人大CMU最新开源
新智元报道编辑：LRST【新智元导读】视觉+语音=更强的语音识别！BPO-AVASR通过优化音视频输入和输出偏好，提升语音识别在真实场景中的准确性，解决了传统方法在噪声、口语化和视觉信息利用不足的问题。在日常生活中，你是否遇到过这样的
给语音模型戴上「眼镜」，错误率降低125！人大CMU最新开源
admin7小时前
10