Skip to main content

🤖 自监督学习实现机器人唇语同步人机交互中,嘴唇动作占据近一半视觉注意力

  1. 🤖 自监督学习实现机器人唇语同步

    人机交互中,嘴唇动作占据近一半视觉注意力。但现有机器人嘴唇往往动作僵硬、与语音不同步,产生恐怖谷效应。

    哥伦比亚大学 Hod Lipson 团队研发了一款仿生人形机器人面部,采用软硅胶嘴唇和 10 自由度机械结构,能模拟人类复杂的嘴部运动。研究团队使用变分自编码器(VAE)结合面部动作 transformer 的自监督学习 pipeline,让机器人直接从语音音频中自主推断唇部运动轨迹,无需预先定义动作规则。实验显示,该方法在视觉连贯性上优于简单振幅基线,且能泛化到训练时未见过的 10 种语言。

    这项突破为机器人社交交互、教育陪伴、康复训练等场景奠定了基础。逼真的唇语同步能显著提升人机交互体验,减少恐怖谷效应。不过,研究仍处于实验室阶段,离大规模商用还有距离。

    以后机器人讲 10 国语言都不用对口型了!👄

    来源:Science Robotics (IF: 27.5, Q1)

    #机器人 #人机交互 #深度学习 #仿生机器人

    🧬 频道🧑‍🔬 群组📨 投稿
    ❤️ 1