🤖 自监督学习实现机器人唇语同步
人机交互中,嘴唇动作占据近一半视觉注意力。但现有机器人嘴唇往往动作僵硬、与语音不同步,产生恐怖谷效应。
哥伦比亚大学 Hod Lipson 团队研发了一款仿生人形机器人面部,采用软硅胶嘴唇和 10 自由度机械结构,能模拟人类复杂的嘴部运动。研究团队使用变分自编码器(VAE)结合面部动作 transformer 的自监督学习 pipeline,让机器人直接从语音音频中自主推断唇部运动轨迹,无需预先定义动作规则。实验显示,该方法在视觉连贯性上优于简单振幅基线,且能泛化到训练时未见过的 10 种语言。
这项突破为机器人社交交互、教育陪伴、康复训练等场景奠定了基础。逼真的唇语同步能显著提升人机交互体验,减少恐怖谷效应。不过,研究仍处于实验室阶段,离大规模商用还有距离。
来源:Science Robotics (IF: 27.5, Q1)
#机器人 #人机交互 #深度学习 #仿生机器人
🧬 频道 | 🧑🔬 群组 | 📨 投稿
人机交互中,嘴唇动作占据近一半视觉注意力。但现有机器人嘴唇往往动作僵硬、与语音不同步,产生恐怖谷效应。
哥伦比亚大学 Hod Lipson 团队研发了一款仿生人形机器人面部,采用软硅胶嘴唇和 10 自由度机械结构,能模拟人类复杂的嘴部运动。研究团队使用变分自编码器(VAE)结合面部动作 transformer 的自监督学习 pipeline,让机器人直接从语音音频中自主推断唇部运动轨迹,无需预先定义动作规则。实验显示,该方法在视觉连贯性上优于简单振幅基线,且能泛化到训练时未见过的 10 种语言。
这项突破为机器人社交交互、教育陪伴、康复训练等场景奠定了基础。逼真的唇语同步能显著提升人机交互体验,减少恐怖谷效应。不过,研究仍处于实验室阶段,离大规模商用还有距离。
以后机器人讲 10 国语言都不用对口型了!👄
来源:Science Robotics (IF: 27.5, Q1)
#机器人 #人机交互 #深度学习 #仿生机器人
🧬 频道 | 🧑🔬 群组 | 📨 投稿
❤️ 1